DE2531006A1 - Speech synthesis system from diphthongs and phonemes - uses time limit for stored diphthongs and their double application - Google Patents

Speech synthesis system from diphthongs and phonemes - uses time limit for stored diphthongs and their double application

Info

Publication number
DE2531006A1
DE2531006A1 DE19752531006 DE2531006A DE2531006A1 DE 2531006 A1 DE2531006 A1 DE 2531006A1 DE 19752531006 DE19752531006 DE 19752531006 DE 2531006 A DE2531006 A DE 2531006A DE 2531006 A1 DE2531006 A1 DE 2531006A1
Authority
DE
Germany
Prior art keywords
sounds
sound
double
stored
diphthongs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19752531006
Other languages
German (de)
Inventor
Werner Prof Dr Endres
Eberhard Dipl Ing Grossmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Deutsche Telekom AG
Original Assignee
Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI, Deutsche Telekom AG filed Critical Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Priority to DE19752531006 priority Critical patent/DE2531006A1/en
Publication of DE2531006A1 publication Critical patent/DE2531006A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

The speech synthesis system has a store containing a large number of phonemes, which are used as basic building blocks for building up wordS. Composite sounds or diphthongs are used. All the known vowels and consonants can be built up. A control system is uded to regulate the order and time duration of the basic phonemes. It ensures that voiced and unvoiced sounds are arranged in their proper order; the time duration of the middle ortion of the unvoiced sounds are stored in digital form. The time duration of the stored diphthongs may be approx. 20% of the total time of transition between two deparate sounds.

Description

System zur Synthese von Sprache im Zeitbereich aus Doppellauten und Lautelementen Ble Erfindung betrifft ein System zur Synthese von Sprache im Zeitbereich aus Doppellauten und Lautelementen.System for the synthesis of speech in the time domain from doubles and Lautelemente Ble invention relates to a system for the synthesis of speech in the time domain from double sounds and sound elements.

Derartige Systeme sind beispielsweise durch die Nachrichtentechnischen Pachberichte (Beiheft der NTZ), Band 3, "Informationstheorie", 1956, 5. 28 bis 31, bekannt. Ein derartiges noch in analoger Technik aufgebautes System benötigt zur Synthese eines unbegrenzten Wortschatzes ca. 1000 Doppellaute.Such systems are, for example, by the telecommunications Pachberichte (supplement of the NTZ), Volume 3, "Information theory", 1956, 5. 28 to 31, known. Such a system, which is still built using analog technology, is required for Synthesis of an unlimited vocabulary approx. 1000 double sounds.

Durch die D'D-j.S 18 11 040 ist weiter eine Anordnung zur Synthetisierung von Sprachsignalen bekannt mit einem Speicher, der eine Mehrzahl von einzelnen abfragbaren akustischen Grundbausteinen für den Aufbau von stimmhaften und stimmlosen Lauten enthält und mit einer Steuerschaltung, die Zeitpunkt und Zeitdauer für die Abfrage der einzelnen Grundbausteine aus dem Speicher bestimmt. Bei dieser Anordnung sind die im Speicher enthaltenen wrundbausteine für den Aufbau der stizmnaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz, und die Steuerschaltung veranlaßt für jeden zu erzeugenden stimmhaften Laut die mehrfache Abfrage der Sinusschwingung entsprechender Formantfrequenz mit konstanter, der Pitchfrequenz der zu synthetisierenden Sprachsignale entsprechender Polgefrequenz und quadratisch mit der Formantfrequenz abnehmender Amplitude.D'D-j.S 18 11 040 also provides an arrangement for synthesizing of speech signals known with a memory containing a plurality of individual interrogable basic acoustic building blocks for the construction of voiced and unvoiced sounds contains and with a control circuit, the time and duration for the query of the individual basic building blocks determined from the memory. In this arrangement the basic building blocks contained in the memory for the construction of the key elements Lute damped sinusoidal oscillations of various frequencies, and the control circuit causes for each voiced sound to be generated the multiple query of the sinusoidal oscillation corresponding formant frequency with constant, the pitch frequency of the to be synthesized Speech signals of the corresponding pole frequency and quadratic with the formant frequency decreasing amplitude.

Diese mit Einzellauten arbeitende bekannte Anordnung kommt zwar mit einer verhältnismäßig geringen Anzahl von Einzellauten als Sprachelemente aus, benötigt aber eine verwickelt aufgebaute umlaufende Analogspeicheranordnung, die Ueber mehrere Leseköpfe überlappend abgetastet werden muß.This known arrangement, which works with single sounds, comes with it a relatively small number of individual sounds as language elements but an intricately constructed rotating analog memory arrangement, which has several Read heads must be scanned overlapping.

Die Erfindung hat - wie die mit Einzellauten arbeitende Anordnung nach der D?-AS 18 11 040 - die Aufgabe, die Anzahl und die Länge der Sprachelemente möglichst zu reduzieren.The invention has - like the arrangement working with single sounds according to the D? -AS 18 11 040 - the task, the number and the length of the language elements to reduce as much as possible.

Auch bei dem System nach der Erfindung wird die erforderliche Länge der nachzubildenden stimmhaften Laute durch entsprechende Wiederholung der eingespeicherten Pitchperiode erreicht. Im Gegensatz zu dieser bekannten Anordnung geht die Erfindung tedoch von einem System aus, bei dem in der Hauptsache Doppellaute in digitaler Form gespeiohert werden. Daneben werden Je eine Pitchperiode der stimmhaften Laute und ein zeitlicher Abschnitt aus dem Mittelteil Jedes stimmlosen Lautes gespeichert.Also in the system according to the invention, the required length of the voiced sounds to be reproduced by repeating the stored ones accordingly Pitch period reached. In contrast to this known arrangement, the invention works tedoch from a system in which mainly double sounds in digital Form can be saved. In addition, each of the voiced sounds has a pitch period and a temporal segment from the middle part of each unvoiced sound is stored.

Zur Lösung der durch die digitale Speicherung und die Ver-Wendung von Doppellauten von anderen Voraussetzungen ausgehenden Aufgabe der Verringerung der Anzahl und Länge der Spracheiemente schlägt die Erfindung die gemeinsame Anwendung folgender Maßnahmen vor: ) zeitliche Beschrknkung der einzuspeichernden Doppellaute auf den ca. 20 % der Gesamtzeit ausmachenden signifikanten übergangslaut zwischen den beiden Lauten, der sowohl Komponenten des ersten als auch solche des zweiten Lauts enthält, getrennte Speicherung der dem Übergangslaut vorhergehenden und nachfolgenden, mehrfach ausnutzbaren Laute und ihre Wiederanfügung bei der Synthese.To solve the problem through digital storage and use the task of reducing double sounds from other conditions the number and length of the language elements, the invention proposes the common application following Measures before:) Time limitation of the double sounds to be stored on the About 20% of the total time making up a significant transitional sound between the two Phones that contain both components of the first and the second sound, separate storage of the preceding and following the transitional sound, multiple times exploitable sounds and their re-addition in synthesis.

b) Doppelausnutzung einer Anzahl der eingespeicherten Doppellaute zur Darstellung von Doppellauten, die aus den gleichen Lauten in umgekehrter Aufeinanderfolge bestehen, durch Aus speicherung mit gegenüber der Einspeicherung umgekehrtem zeitlichen Ablauf.b) Double use of a number of the stored double sounds for the representation of double sounds, which are made up of the same sounds in reverse order exist by from storage with the opposite time compared to storage Sequence.

c) Doppelausnutzung eines Teils der Vokale enthaltenden Doppellaute durch Ausspeicherung mit gegenüber der Einspeicherung verringerter oder vermehrter Anzahl der Pitchperloden mit der Folge einer Vokalumwandlung.c) Double use of part of the double sounds containing vowels by withdrawal with reduced or increased compared to injection Number of pitch periods with the result of a vowel conversion.

d) Zusammenfassung eines Teils der Konsonanten betreffenden Laute in folgende Lautgruppen: und Speicherung nur eines Ubergangslauts pro Vokal und Lautgruppe; d.h. Jeder Übergangslaut wird in Lautkombinationen aus den Konsonanten der einzelnen Lautgruppen mit jeweils dem gleichen Vokal benutzt.d) Summary of some of the sounds relating to consonants into the following groups of sounds: and storing only one transition sound per vowel and sound group; ie every transitional sound is used in sound combinations from the consonants of the individual sound groups with the same vowel in each case.

e) Mehrfach- bzw. Doppelausnutzung der eingespeicherten Reibelaute von denen jeweils nur ein Teilabschnitt unterschiedlicher, von der klanglichen Struktur der zu synthetisierenden Laute abhängiger Länge, meist bei Fortfall des Elnschwingvorgangs der hintere Teil der Zeitfunktion, mit der Folge einer Konsonantenumwandlung durch Verkürzung verwendet wird: Diese Umwandlungen von Konsonanten haben für das Sprachsynthesesystem der Erfindung deswegen Bedeutung, weil durch sie die Zahl der zu speichernden Ubergangslaute stark reduziert werden kann.e) Multiple or double use of the stored fricatives of which only a partial section of different lengths, depending on the tonal structure of the sounds to be synthesized, usually the rear part of the time function, with the result of a consonant conversion through shortening, is used when the oscillation process ceases: These conversions of consonants are important for the speech synthesis system of the invention because they can greatly reduce the number of transitional sounds to be stored.

Durch dieses bisher nicht ausgenutzte Phanomen ist es für die Sprachsynthese ausreichend, aus Jeder nach der tlaßnahme d) gebildeten fünf Lautgruppen nur Je einen Konsonanten auszuwählen und nur die Übergangslaute dieses Konsonanten zu speichern. Grundsätzlich kann jeder Konsonant aus der jeweiligen Lautgruppe dazu genommen werden. Allerdings lassen sich nicht alle Konsonanten einer Lautgruppe zuordnen. Das gilt vor allem für die vokalähnlichen Konsonanten /m/, / i, und /l/* bei denen sämtliche uebergangs~ laute gespeichert werden müssen.Through this previously unexploited phenomenon, it is beneficial for speech synthesis sufficient, from each of the five sound groups formed after the release d) only each select a consonant and save only the transitional sounds of that consonant. In principle, every consonant from the respective group of sounds can be added. However, not all consonants can be assigned to a phonetic group. That is true especially for the vowel-like consonants / m /, / i, and / l / * where all of them transition ~ loud must be saved.

Auch für einen Ubergang aus zwei Konsonanten der gleichen Lautgruppe wie z,B. /kR/, oder /gR/ muß der originale übergangslaut gespeichert werden.Also for a transition from two consonants of the same group of sounds such as. / kR /, or / gR / the original transitional sound must be saved.

Abgesehen von diesen Ausnahmen läßt sich aber durch diese Lautgruppenbildung die Zahl der Konsonanten, der @@ Übergänge zu den übrigen Konsonanten gespeichert werden müssen, von 22 auf 8 reduzieren.Apart from these exceptions, however, this grouping of sounds the number of consonants, the @@ transitions to the remaining consonants stored reduce from 22 to 8.

Durch die gemeinsame Anwendung aller vorstehend aufgeführten Maßnahmen wird die Zahl der zu speichernden Sprachelemente auf ca. 25'20 der bei dem ersterwähnten System notwendigen Anzahl reduziert.By applying all of the above measures together the number of language elements to be stored is about 25,20 that of the first mentioned System required number reduced.

Im einzelnen werden dann noch folgende Sprachelemente benötigt: 1. ca 150 Überglage, mit-bei einer Abtastfrequenz von 12 kHz-je ca. 500 Abtastwerten 2. je eine Pitohperiode der stimmhaften Laute 3. ein Abschnitt aus dem rlittelteil der stimmlosen Laute mit Ausnahme der Explosivlaute, bei denen der Anfang der Zeitfunktion ges7)eichert wird.In detail, the following language elements are then required: 1. approx. 150 overlays, with - at a sampling frequency of 12 kHz - approx. 500 sampling values each 2. One pitoh period for each of the voiced sounds 3. A section from the third part the voiceless sounds with the exception of the explosive sounds, where the beginning of the time function ges7) is secured.

Eine Speicherung dieser Segmente im Zeitbereich, uncodiert, würde ein Speichervolumen der Großenordnung 1 BBit erfordern.A storage of these segments in the time domain, uncoded, would require a storage volume of the order of 1 Bbit.

Diese Zahl kann erheblich reduziert werden, wenn eines der bekannten Codierverfahren: Pulscodemodulation, Differenz -9C, Adaptive Differenz .-PCM, Deltamodulation, Adaptive Deltamodulation, Blockquantisierung, oder Adaptive Blockquantisierung oder ein Vocoder vor der Speicherung angewendet wird.This number can be reduced significantly if one of the well known Coding method: pulse code modulation, difference -9C, adaptive difference.-PCM, delta modulation, Adaptive delta modulation, block quantization, or adaptive block quantization or a vocoder is applied prior to storage.

Eine so erreichte Speicherplatzersparnis wUrde allerdinge die Reproduktionszeit der Laute und Wörter erhöhen. Es muß daher für jeden Anwendungsfall entschieden werden, welche Codierung zu wählen ist.A storage space saving achieved in this way would, however, reduce the reproduction time of sounds and words increase. It must therefore be decided for each application which coding to choose.

Bei einem SpraahayFthesesystem nach der Erfindung erfolgt die Verarbeitung der Doppellaute stets paarweise, wobei eine Verkntipfungslogik die zu synthetisierenden Laute entweder direkt oder über einen Vervielfacher oder einen Umkehrer aus einem alle gespeicherten Doppellaute enthaltenden schnellen Datenspeicher in einen Ausgabespeicher überführt.The processing takes place in a Spraahay thesis system according to the invention of the double sounds always in pairs, whereby a logic of connection is the one to be synthesized Sounds either directly or through a multiplier or an inverter from one all stored double sounds containing high-speed data memories into an output memory convicted.

Bei bestimmten Lautkonstellationen bewirkt die VerknUpfungslogik ueber einen Amplitudenbewerter eine Bewertung der Amplitude der ausgespeicherten Doppellaute, Die im Ausgabe speicher stehenden Daten werden schließlich einem Digital-Analog-Vlandler zugeführt und von dort akustisch ausgegeben.With certain sound constellations, the logic of the linkage has the effect of an amplitude evaluator an evaluation of the amplitude of the stored double sounds, The data stored in the output memory is then sent to a digital-analog Vlandler and output from there acoustically.

Bei einer von der normalen Lautlänge abweichenden gewünschten Lautlänge kann die Verknüpfungslogik entsprechend der besonders eingegebenen prosodischen Information eine geringere oder größere Anzahl von Pitchperioden aus dem schnellen Datenspeicher wiederholen.In the case of a desired sound length that deviates from the normal sound length the linkage logic can be used accordingly the specially entered prosodic information from a smaller or larger number of pitch periods repeat the fast data storage.

Falls die gewünschte Sprachhöhe von der normalen Sprachgrund~ frequenz abweicht, kann die Verknüpfungslogik eine von mehreren verschieden langen Pitohperioden auswählen, die sich aus der gesondert eingegebenen prosodischen Information ableiten läßt.If the desired speech level differs from the normal basic speech frequency deviates, the combination logic can be one of several Pitoh periods of different lengths which are derived from the separately entered prosodic information leaves.

Weicht die gewünschte Lautstärke, wie sie z,B. zur Betonung einzelner Silben erforderlich ist, von der normalen Lautstärke ab, 80 veranlaßt die Verknüpfungslogik entsprechend der gesondert eingegebenen prosodischen Information eine zusätzliche Amplitudenbevertung, Im folgenden wird anhand von Fig. 1 und 2 die Erfindung näher erläutert, Fig. 1 zeigt einen Programmablauf des Systems gemäß der Erfindung anhand des im Zeitdiagramm nach Fig. 2 gezeigten Beispielswortes stulpe, Fig. 1 zeigt oben eine Eingabe 1, etwa in Form einer schreibmaschinenähnlichen Tastatur. Die sich verzweigenden Pfeile unterhalb der Eingabe sollen andeuten, daß jeweils ein aus zwei Einzellauten (Phonemen) Phi, Ph2 bestehender Doppellaut gegebenenfalls mit einer die Lauthöhe, Betonung usw. kennzeichnenden prosodischen Information "Pro gemeinsam verarbeitet wird.Deviates from the desired volume, e.g. to emphasize individual Syllables is required from the normal volume, 80 causes the combination logic an additional one corresponding to the separately entered prosodic information Amplitude evaluation. The invention is described in greater detail below with reference to FIGS. 1 and 2. FIG explained, Fig. 1 shows a program flow of the system according to the invention based on the example word cuff shown in the timing diagram of Fig. 2, Fig. 1 shows above an input 1, for example in the form of a typewriter-like keyboard. Which arrows branching out below the input are intended to indicate that each is a two single sounds (phonemes) Phi, Ph2 existing double sound with if necessary prosodic information "Pro" indicative of sound pitch, intonation, etc. is processed together.

Eine darunter gcßeichnete Verknüpfungslogik 2 weist demsufolge drei Steuereingänge auf, nämlich einen für jeden Laut des Doppellauts und einen für die zusätzliche prosodische Information des ersten der beiden Laute.A combination logic 2 shown below accordingly has three Control inputs, namely one for each sound of the Double sounds and one for the additional prosodic information of the first of the two sounds.

Die Ausgänge der Verknüpfungslogik 2 gehen einerseits auf einen schnellen Datenspeicher 3, in dem alle für das Verfahren nach der Erfindung erforderlichen Sprachelemente eingespeichert sind, und andererseits auf einen nachgeschalteten Vervielfacher 4, einen Umkehrer 5 und einen Amplitudenbewerter 6.The outputs of the logic logic 2 go on the one hand to a fast one Data memory 3, in which all necessary for the method according to the invention Language elements are stored, and on the other hand on a downstream Multiplier 4, an inverter 5 and an amplitude evaluator 6.

Diese Schaltglieder sind entweder direkt oder hintereinander mit einem nachgeschalteten Ausgabe speicher 7 verbunden.These switching elements are either directly or one behind the other with a downstream output memory 7 connected.

Dem Ausgabe speicher 7 folgt ein Digital-Analog-¢andler 8 mit einem Lautsprecher 9.The output memory 7 is followed by a digital-to-analog converter 8 with a Loudspeaker 9.

Da die Sprachelemente bei dem System nach der Erfindung jeweils aus Doppellauten zusammengesetzt sind, erfolgt ihre Verarbeitung stets paarweise, und zwar derart, daß anstelle des vorangegangenen Lautes der folgende an dessen Stelle im betrachteten Doppellaut tritt.Since the language elements in the system according to the invention each from If double sounds are composed, they are always processed in pairs, and in such a way that instead of the previous sound the following one takes its place occurs in the observed double sound.

Geht man von dem in ls'ig. 2 gewahlten Beispielswort stulpe aus, so bedeutet dies, daß nacheinander die Doppellaute "Null" t, tu, ul, lp, pe, e "Null" verarbeitet werden, wobei "Null" hier als phonetisches Leerzeichen stehen soll.Judging from the one in ls'ig. 2 selected example word cuff, see above this means that the double sounds "zero" t, tu, ul, lp, pe, e "zero" processed, whereby "zero" should stand here as a phonetic space.

Das Beispielewort stulpe" wird in Lautschrift geschrieben.The example word cuff "is in phonetic transcription written.

Nach Eingabe des ersten Symbols /t/ steht der erste Doppellaut fest als "Null t ". In den Ausgabespeicher 7 wird die "ITull" geschrieben. Als Übergang Null-*t wird der Anfang des Einzellauts /t/ in den Ausgabespeicher 7 gebracht.After entering the first symbol / t / the first double sound is fixed as "zero t". The "ITull" is written into the output memory 7. As a transition Zero- * t, the beginning of the single sound / t / is brought into the output memory 7.

Die Lingabe des /U/ veranlaßt das Ausschreiben des mit einer ansteigenden aperiodisch verlaufenden Hüllkurve bewerteten ersten teils des /6/ sowie (als Übergang t -> U ) des Lbergangslautes aus dem Doppellaut /So/ in den Ausgabespeicher 7.Entering the / U / causes the to be written out with a rising the aperiodically running envelope curve evaluated first part of / 6 / as well as (as transition t -> U) of the transition sound from the double sound / So / into the output memory 7.

Bei eingabe des nächsten Lautes /1/ wird eine Periode des aus dem Datenspeicher 5 geholt, in dem Vervielfacher 4 fünfmal wiederholt und in den Ausgabespeicher 7 geschrieben, zusätzlich wird der Übergangslaut//o/in dem Umkehrer 5 umgekehrt, und in den Ausgabespeicher 7 gebracht.When entering the next sound / 1 /, a period of the Data memory 5 is fetched, repeated five times in the multiplier 4 and in the output memory 7 written, in addition the transitional sound // o / is reversed in the inverter 5, and brought into the output memory 7.

Bei eingabe des /p/ erkennt die Verknüpfungslogik 2 den Explosivlaut und schreibt nach acht Perioden des /// weitere acht Perioden dieses Lautes, die, da als nächstes die vor Explosivlauten obligatorische Pause folgt, im Amplitudenbewerter 6 mit einer in ihrem Verlauf fallenden Hüllkurve bewertet erden. Danach wird der Nullaut und der Anfang des/,o/ in den Ausgabespeicher 7 geschrieben.When entering / p /, logic logic 2 recognizes the explosive sound and after eight periods of the /// writes another eight periods of this sound, because next follows the mandatory pause before explosive sounds, in the amplitude evaluator 6 with a falling envelope curve. After that, the Zero and the beginning of /, o / are written into the output memory 7.

Bei Eingabe des /#/ schließlich werden der Anfang des/p/, wiederum amplitudenbewertet und der Übergang /// in den Ausgabespeicher 7 gebracht.When you enter the / # /, the beginning of the / p /, again amplitude-weighted and the transition /// brought into the output memory 7.

Wird jetzt die akustische Ausgabe gefordert, so wird eine Pitchperiode des /#/ ausgespeichert und zunächst viermal wiederholt, dann zusätzlich achtmal wiederholt und in den Ausgabespeicher 7 gebracht, wobei die letzten acht Perioden in ihrem Amplitudenverlauf mit einer abfallenden Hüllkurve bewertet werden.If the acoustic output is now required, there is a pitch period des / # / and initially repeated four times, then additionally repeated eight times and placed in the output memory 7, the last eight Periods are evaluated in their amplitude curve with a falling envelope.

Der Inhalt des Ausgabe speichers 7 wird nun in dem Digital-Analog-Wandler 8 in ein analoges Signal gewandelt und anschließend über den Lautsprecher 9 akustisch ausgegeben.The content of the output memory 7 is now in the digital-to-analog converter 8 converted into an analog signal and then acoustically through the loudspeaker 9 issued.

Wird eine besondere Betonung beispielsweise de41t/ im Beispeilsvrort "tulpe" gewünscht, muß die entsprechende prosodische Information mit eingegebenen werden. Die Verknüpfungslogik 2 veranlaßt dann eine zusatzliche Amplitudenbewertung.If there is a special emphasis, for example, de41t / in the example preface If "tulip" is desired, the corresponding prosodic information must also be entered will. The combination logic 2 then causes an additional amplitude evaluation.

Claims (1)

(5) Patentansprüche (5) Claims System zur Synthese von Sprache im eitbereich aus Doppellauten und Lautelementen, bei dem neben den Doppellauten je eine 2itchperiode der stimmhaften Laute und ein zeitlicher Abschnitt aus dem Mittelteil jedes stimmlosen Lauts in digitaler rorm gespeichert werden und bei dem die erforderliche Länge der nachzubildenden stimmhaften Laute durch entsprechende Wiederholung der eingespeicherten I>itchperiode erreicht wird, g e k e n n z e i c h n e t d u r c h die gemeinsame Anwendung folgender Maßnahmen: a) zeitliche Beschränkung der einzuspeichernden Doppellaute auf den ca. 20 % der Gesamtzeit ausmachenden signifikanten Übergangslaut zwischen den beiden Lauten, der sowohl Komponenten des ersten als auch solche des zweiten Lauts enthält, getrennte Speicherung der dem Übergangslaut vorhergehenden und nachfolgenden, mehrfach ausnutzbaren Laute und ihre iederanfügung bei der Synthese.System for the synthesis of speech in the eitbereich from doubles and Sound elements in which, in addition to the double sounds, a 2 pitch period of the voiced Sounds and a temporal section from the middle part of each unvoiced sound in digital rorm are stored and in which the required length of the to be reproduced voiced sounds by corresponding repetition of the stored idle period is achieved, it is possible to use the following Measures: a) Time limitation of the double sounds to be stored to the approx. 20% of the total time, there is a significant transitional sound between the two Phones that contain both components of the first and the second sound, separate storage of the preceding and following the transitional sound, multiple times exploitable sounds and their addition in synthesis. b) Doppelauenutzung einer Anzahl der eingespeicherten Doppellaute zur Darstellung von Doppellauten, die aus den gleichen Lauten in umgekehrter Aufeinanderfolge bestehen, durch Ausspeicherung mit gegenüber der Einspeicherung umgekehrtem, zeitlichen Ablauf (ma <--> am). b) Double use of a number of the stored double sounds for the representation of double sounds, which are made up of the same sounds in reverse order exist, by withdrawal with the opposite of the injection, temporal Expiry (ma <--> am). c) Doppelausnutzung eines Teils der Vokale enthaltenden Doppellaute durch Ausepeicherung mit gegenüber der Einspeicherung verringerter oder vermehrt er Anzahl der Pitchperioden mit der Folge einer Vokalumwandlung 4 erringerte Anzahl der Pitchperioden /// # J vermehrt Anzahl der Pitchperioden
d) Zusammenfassung eines Teils der Konsonanten betreffenden Übergangslaute in folgende Lautgruppen: und Speicherung nur eines Übergangslauts pro Vokal und Lautgruppe; d.h. jeder Übergangslaut wird in Lautkombinationen aus den Konsonanten der einzelnen Lautgruppen mit Jeweils dem gleichen Vokal benutzt.
c) Double use of a part of the double sounds containing vowels by storing them with a reduced or increased number of pitch periods compared to the storage with the result of a vowel conversion 4 reduced number of pitch periods /// # J increased number of pitch periods
d) Summary of some of the transitional sounds relating to consonants into the following groups of sounds: and storing only one transitional sound per vowel and sound group; ie every transitional sound is used in sound combinations from the consonants of the individual sound groups, each with the same vowel.
e) Mehrfach- bzw. Doppelausnutsung der eingesPeicherten Reibelaute , von denen Jeweils nur ein Teilabschnitt unterschiedlichlicher, von der klanglichen Struktur der zu synthetisierenden Laute abhängiger Länge, meist bei Fortfall des Eincchwingvorgangs der hintere Teil der Zeitfunktion, mit der Folge einer Konsonantenumwandlung durch VerkUrzung verwendet wird: 2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Verarbeitung der Doppellaute stets paarweise erfolgt (Phi, 2h2), wobei eine Verknüpfungslogik (2) die zu synthetisierenden Laute entweder direkt oder über einen Vervielfacher (4) oder einen Umkehrer (5) aus einem alle gespeicherten Doppellaute enthaltenden schnellen Datenspeicher (3) in einen Ausgabespeicher (7) über führt und bei bestimmten Lautkonstellationen über einen Amplitudenbewerter (6) eine Bewertung der Amplitude der ausgespeicherten Doppellaute bewirkt, und daß die im Ausgabespeicher (7) stehenden Daten schließlich einem Digital-Analog-andler (8) zugeführt und von dort ausgegeben werden (Fig. 1).e) Multiple or double utilization of the stored fricatives , of which in each case only a section of different length depending on the tonal structure of the sounds to be synthesized, usually the rear part of the time function, when the transient process is discontinued, with the result of a consonant conversion by shortening: 2. System according to claim 1, characterized in that the processing of the double sounds is always carried out in pairs (Phi, 2h2), with a combination logic (2) the sounds to be synthesized either directly or via a multiplier (4) or a reverser (5) a fast data memory (3) containing all stored double sounds leads to an output memory (7) and, for certain sound constellations, an amplitude evaluator (6) effects an evaluation of the amplitude of the stored double sounds, and the data in the output memory (7) are finally digital -Analog-andler (8) are supplied and output from there (Fig. 1). 3. System nach Anspruch 2, dadurch gekennzeichnet, daß bei einer von der normalen Laut länge abweichenden gewünschten Lautlänge die Verknüpfungslogik (2) entsprechend der gesondert eingegebenen prosodischen Information (ro) eine geringere oder größere Anzahl von Pitchperioden aus dem schnellen Datenspeicher (3) wiederholt.3. System according to claim 2, characterized in that at one of the desired sound length deviating from the normal sound length (2) a smaller one corresponding to the separately entered prosodic information (ro) or a larger number of pitch periods from the fast data memory (3) repeated. 4. System nach Anspruch 2, dadurch gekennzeichnet, daß bei liner von der normalen Sprachgrundfrequenz abweichenden gewünschten Sprachhöhe die Verknüpfungslogik (2) eine von mehreren verschieden langen Pitchperioden entsprechend der gesondert eingegebenen prosodischen Information (Pro) auswahlt.4. System according to claim 2, characterized in that the liner of the desired speech level deviating from the normal basic speech frequency (2) one of several pitch periods of different lengths according to the separately entered prosodic information (Pro). 5. System nach Anspruch 2, dadurch gekennzeichnet, daß bei einer von der normalen Lautstärke abweichenden gewünschen Lautstärke (Betonung) die Verknüpfungslogik (2) entsprechend der gesondert eingegebenen prosodischen Information (Pro) eine zusätzliche Amplitudenbewertung veranlaßt.5. System according to claim 2, characterized in that at one of the desired volume (emphasis) deviating from the normal volume, the logic of the linkage (2) according to the separately entered prosodic information (Pro) one causes additional amplitude evaluation. L e e r s e i t eL e r s e i t e
DE19752531006 1975-07-11 1975-07-11 Speech synthesis system from diphthongs and phonemes - uses time limit for stored diphthongs and their double application Pending DE2531006A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19752531006 DE2531006A1 (en) 1975-07-11 1975-07-11 Speech synthesis system from diphthongs and phonemes - uses time limit for stored diphthongs and their double application

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19752531006 DE2531006A1 (en) 1975-07-11 1975-07-11 Speech synthesis system from diphthongs and phonemes - uses time limit for stored diphthongs and their double application

Publications (1)

Publication Number Publication Date
DE2531006A1 true DE2531006A1 (en) 1977-01-27

Family

ID=5951264

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19752531006 Pending DE2531006A1 (en) 1975-07-11 1975-07-11 Speech synthesis system from diphthongs and phonemes - uses time limit for stored diphthongs and their double application

Country Status (1)

Country Link
DE (1) DE2531006A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0107945A1 (en) * 1982-10-19 1984-05-09 Kabushiki Kaisha Toshiba Speech synthesizing apparatus
EP0144731A2 (en) * 1983-11-01 1985-06-19 Nec Corporation Speech synthesizer
EP0181339A1 (en) * 1984-04-10 1986-05-21 First Byte Real-time text-to-speech conversion system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0107945A1 (en) * 1982-10-19 1984-05-09 Kabushiki Kaisha Toshiba Speech synthesizing apparatus
EP0144731A2 (en) * 1983-11-01 1985-06-19 Nec Corporation Speech synthesizer
EP0144731A3 (en) * 1983-11-01 1985-07-03 Nec Corporation Speech synthesizer
EP0181339A1 (en) * 1984-04-10 1986-05-21 First Byte Real-time text-to-speech conversion system
EP0181339A4 (en) * 1984-04-10 1986-12-08 First Byte Real-time text-to-speech conversion system.

Similar Documents

Publication Publication Date Title
DE69909716T2 (en) Formant speech synthesizer using concatenation of half-syllables with independent cross-fading in the filter coefficient and source range
DE68919637T2 (en) Method and device for speech synthesis by covering and summing waveforms.
DE69718284T2 (en) Speech synthesis system and waveform database with reduced redundancy
EP0886853B1 (en) Microsegment-based speech-synthesis process
DE69028072T2 (en) Method and device for speech synthesis
DE4237563C2 (en) Method for synthesizing speech
DE69506037T2 (en) Audio output device and method
DE3003385C2 (en) Envelope circuit for an electronic musical instrument
DE2740520A1 (en) METHOD AND ARRANGEMENT FOR SYNTHESIS OF LANGUAGE
DE2229149A1 (en) Method of transmitting speech
DE1965480C3 (en) Device for converting a text printed in graphic characters into spoken words
DE3228756A1 (en) METHOD AND DEVICE FOR PERIODICALLY COMPRESSING AND SYNTHESIS OF VOICE-FREE VOICE SIGNALS
DE3019823C2 (en)
DE3006339C2 (en) Speech synthesizer
DE1811040C3 (en) Arrangement for synthesizing speech signals
DE4138016A1 (en) DEVICE FOR GENERATING AN ANNOUNCEMENT INFORMATION
EP0058130B1 (en) Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same
DE2531006A1 (en) Speech synthesis system from diphthongs and phonemes - uses time limit for stored diphthongs and their double application
DE69831105T2 (en) Speech synthesizer with a CELP decoder structure
DE3215868A1 (en) Method and arrangement for recognising the words in a continuous word chain
DE3232835C2 (en)
DE2335818C3 (en) Electrical arrangement for the automatic generation of spoken sentences
DE3037276A1 (en) TONSYNTHESIZER
AT311077B (en) Device for synthesizing audio information
EP1554715B1 (en) Method for computer-aided speech synthesis of a stored electronic text into an analog speech signal, speech synthesis device and telecommunication apparatus

Legal Events

Date Code Title Description
OHJ Non-payment of the annual fee