EP0058130B1 - Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same - Google Patents

Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same Download PDF

Info

Publication number
EP0058130B1
EP0058130B1 EP82730011A EP82730011A EP0058130B1 EP 0058130 B1 EP0058130 B1 EP 0058130B1 EP 82730011 A EP82730011 A EP 82730011A EP 82730011 A EP82730011 A EP 82730011A EP 0058130 B1 EP0058130 B1 EP 0058130B1
Authority
EP
European Patent Office
Prior art keywords
samples
sound
elements
sounds
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
EP82730011A
Other languages
German (de)
French (fr)
Other versions
EP0058130A2 (en
EP0058130A3 (en
Inventor
Eberhard Dr.-Ing. Grossmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grossmann Eberhard Dr-Ing
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to AT82730011T priority Critical patent/ATE20784T1/en
Publication of EP0058130A2 publication Critical patent/EP0058130A2/en
Publication of EP0058130A3 publication Critical patent/EP0058130A3/en
Application granted granted Critical
Publication of EP0058130B1 publication Critical patent/EP0058130B1/en
Expired legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • the invention relates to a method for the synthesis of speech with unlimited vocabulary in the time domain from sound elements that are obtained from natural speech samples and coded, stored in digital form, with little redundancy, and also with regard to the required storage space length in each case to the significant range of relevant sound-typical time signal and the number are reduced by utilizing mutually convertible related sounds, for speech synthesis these sound elements are chained in the required form, number and order to form digital signal sequences based on input commands and predetermined linking rules, from which by means of digital-analog Conversion and controllable amplification as speech-perceptible sound waves are generated, as well as on a switching arrangement for performing the method.
  • Speech synthesis is understood to mean the conversion of a text present as a symbol sequence into the equivalent acoustic signal by means of technical equipment. It is of fundamental importance that between the input of the symbol sequence in the equipment and the output of the equivalent acoustic signal, all processes take place immediately, without the interposition of human mind powers. The precisely determined individual technical measures follow the planned use of predictable and controllable natural forces.
  • the evaluation criteria for synthetic language are intelligibility and naturalness.
  • the standards for this are, albeit z. B. detectable in terms of intelligibility according to objective criteria, subjective nature. Nevertheless, there are circumstances that everyone can immediately use for the assessment. These are the course of the basic pitch (pitch frequency), the speaking rhythm and the course of the intensity.
  • the individual sounds merge into one another in the course of the natural language signal. They are characterized by several sound generation frequencies (formants). These sound generation frequencies are independent of the fundamental pitch, i.e. regardless of the speech height.
  • the speech synthesis system known from DE-OS 2 016 572 takes into account the problems at the transitions between successive phonemes in particular with regard to intelligibility. Since the formant frequencies - taking into account the three main formants is sufficient - can increase, decrease or remain the same at the transitions, there are nine versions for each phoneme to be stored purely mathematically. In order not to have to increase the storage capacity by practically a further power of ten, the solution in this known prior art aims to get by with a stored version and to modify this representation according to the requirements during the synthesis process. In addition, only the significant range of the individual sounds is saved, e.g.
  • the task known from DE-OS 2306816 is based on the task in the preparation of phonetic segments to create a comprehensive range of pitch periods for the synthesized sounds, which should benefit the improvement of naturalness and intelligibility.
  • the solution given is to pick out sound waveforms from natural language for voiced sounds with defined periodicity of each pitch length and to add a waveform to each such waveform at the end area that was obtained by a rough calculation for the waveform of the respective sound. Sound waveforms of unvoiced sounds and the transitions between consonants and vowels that have an undefined periodicity should be divided into fixed lengths.
  • the sound waveforms obtained in this way then represent the synthesis building blocks.
  • changing the duration of a pitch period not only results in a corresponding change in pitch, but also - as already mentioned above and also explained in more detail below - also results in a sound shift or contamination .
  • the pitch period can be changed, lengthened or shortened, and thus the fundamental pitch can be lowered or raised accordingly, if samples are used or omitted at these discrete locations without the sound character thereby changing.
  • samples approximately 30 within such a significant area, special “samples” are used, the marker words, which allow these locations to be found at any time.
  • the marker words themselves are omitted when the elements are linked to form the digital signal sequences. Accordingly, 60 samples, e.g. B. the one adjacent to a marker word, depending on whether they are used or not, a practically continuous variation of the pitch, so very many melody lines.
  • the table contains the two options mentioned (cf. also FIG. 9 and associated description).
  • transitions - with the exception of combinations of plosives - can be inverted in time; by lengthening or shortening the length of time, vowel conversions take place; by shortening the length of time, there are also consonant conversions.
  • the required sound elements are made up of almost 60 elements for transitional sounds, 27 elements for voiced individual sounds and 13 elements for unvoiced individual sounds. Further details follow in connection with the description of the figures.
  • Particularly preferred embodiments of the invention consist in the fact that the digitally stored elements for the voiced sounds - with an average of 140 samples for individual sounds or 240 for transition sounds - contain additional samples for the purpose of pitch variation. In the worst case, which is then no longer covered by this embodiment, this measure leads to a slight increase by approximately 1000 bytes of the required storage space volume, but enables further variations in the melody courses.
  • an additional sample value has an interpolated value lying between the adjacent true sample values. In this way, any discontinuities that would occur between the true samples that are definitely needed and used can be reduced or avoided.
  • marker words are preferred in the embodiments of the invention.
  • marker words are to be reserved for digital words which do not occur in the sample values.
  • embodiments of the invention it is of particular importance for embodiments of the invention to be able to determine the shape of the sound elements required for the concatenation of the next word following the pauses on the basis of the input commands. This avoids discontinuities in the output of the individual words.
  • the duration for determining the shape of the required synthesis building blocks, even for very long words, is in the range of a few milliseconds. Determining the shape is to be understood here: searching for the relevant sound element, possibly inverting in time, lengthening or shortening the duration of the sound and specifying the number of repetitions of the stored sound element.
  • a further essential advantage of the invention is that sequences of conventional characters entered via an alphanumeric keyboard can be automatically transcribed into a sequence of phonetic characters suitable as input commands in a method step preceding the actual synthesis process. As a result, even inexperienced or untrained users will find it much easier to use, or even opened up. Of course, there is also the option of entering phonetic characters or the appropriate input commands directly.
  • a circuit arrangement for carrying out the method according to the invention can be constructed with a microprocessor, to which read-only memories with a total storage capacity of 32 kbytes and a working memory for 1 kbyte are to be connected, and also has a decompanding digital-to-analog converter and a -volume-controllable low-frequency amplifier and a loudspeaker as an electro-acoustic transducer device.
  • a microprocessor to which read-only memories with a total storage capacity of 32 kbytes and a working memory for 1 kbyte are to be connected, and also has a decompanding digital-to-analog converter and a -volume-controllable low-frequency amplifier and a loudspeaker as an electro-acoustic transducer device.
  • Such circuit elements and components are common on the market. The concept also enables extensive integration.
  • the input of the data i.e. the writing or phonetic symbol sequences
  • the output of the acoustic signals can take place both directly on the device and at remote locations.
  • a V24 interface or a low-frequency socket can be provided at the output.
  • a speech synthesis system in embodiments according to the invention essentially consists of two details, that for the transcription and that for the synthesis itself.
  • a character string which is done via an alphanumeric keyboard or via a V24 interface can, or a sound string.
  • experienced or trained users can also enter the sound strings directly using suitable keyboards, in most applications, if the transcription is not used, the synthesis unit will then receive the corresponding input signals from a remote location via a data line and the V24 interface.
  • Other interface conditions can also be complied with and implemented within the scope of professional skills.
  • the transcription unit uses prepared rules, summarized under the term grammar, the synthesis unit essentially uses the stored sound elements.
  • the synthesized sample sequences arrive via a digital-to-analog converter D / A and a controllable amplifier either directly via a loudspeaker or via a low-frequency socket and a voice transmission line, not shown, and at a remote location via a loudspeaker as sound waves for reproduction, better output.
  • the block diagram shown in FIG. 2 shows, in particular in the size comparison of the individual blocks, the storage space requirement with the proportions that are required for the synthesis and the transcription as a whole.
  • the system is designed on the basis of a microprocessor IlP.
  • An alphanumeric keyboard is provided for entering the character string, and a conventional electro-acoustic converter is provided for outputting the sound waves perceptible as speech.
  • the microprocessor ⁇ P works with the transcription program TP and the transcription grammar TG, for speech synthesis with the synthesis program SP and the synthesis matrix SM, the required sound elements being taken from the sound element memory SE as required and into the RAM stored in the working memory from which Derived shape of the relevant sound string, chained in the relevant number and order and passed to the digital-to-analog converter (see FIG. 1, D / A).
  • a volume control within the synthesized words and sentences takes place, also controlled by the microprocessor ⁇ P and according to commands entered therefor, in the controllable low-frequency amplifier (see FIG. 1) before the radiation of the sound waves or the transmission of the low-frequency signal.
  • the position of the three first formants for nine different sounds shown in FIG. 3 shows that the first and the second formants in particular are of considerable importance for the formation of sounds. Due to the linear division of the frequency scale, it should not be overlooked that the third formant also occupies the area of about half an octave.
  • the time signal of the word "ash" shown in FIG. 5 is intended to illustrate the possibility of reducing the length of sound elements by segmentation into quasi-stationary areas S and transition areas U.
  • quasi-stationary areas S fundamental speech frequency periods P can be recognized, which form the significant area of a sound and are only stored in this length as an element for the synthesis need to be. Similar fundamental frequency periods can also be seen in transition areas and are also sufficient as a synthesis module.
  • FIGS. 6a, 6b and 6c for temporal inversion of transitions (FIG. 6a), for vowel conversions (FIG. 6b) and for consonant conversions (FIG. 6c) speak for themselves and therefore do not require any further explanation here.
  • a shortening or lengthening of the duration of the sound not only brings about a shift in the pitch, but in particular causes a sound conversion.
  • the 16 sounds shown in FIG. 6c only those given in the first place in each line need to be stored. Although these are the sounds with the most required sample values in each case, this saves storage space of a good 60% compared to storing all of these sounds.
  • the change in the auditory impression shown in FIG. 7 indicates that 20 test persons should determine a consonant conversion (in brackets) which - apart from two people when the starting point is shifted to 160 ms - confirm the stated auditory impression in the individual conversion forms.
  • FIG. 8a, 8b and 8c show an example of the manner in which the pitch variation which is essential in the invention is made possible.
  • a fundamental frequency period of the sound / a / is plotted in FIG. 8a.
  • the associated error signal (FIG. 8b) is first generated by a prediction error filter. From this it can be seen that discrete places can be specified where modifications have to be made without changing the sound character but its pitch.
  • 8c shows the period of the sound / a / shortened by approximately 20% compared to FIG. 8a. It can be seen in the comparison of the curve profiles of FIGS. 8a and 8c that a shortening of the period, i.e. H. an increase in pitch, the actual characteristic image does not change, the sound / a / is therefore retained as such and - as desired - sounds higher.
  • FIG. 9 shows an example - in excerpts - of the order (serial number) in a stored element of a voiced transitional or individual sound that can be changed in pitch, true samples WAW, skipped samples DAW, additional samples ZAW and marker words MAW follow one another.
  • true samples WAW true samples
  • skipped samples DAW skipped samples
  • additional samples ZAW additional samples
  • marker words MAW follow one another.
  • H. if no pitch variation is to take place, only the true samples WAW are used.
  • Additional samples ZAW are used to lower the pitch, but samples DAW that can be omitted compared to the normal case are omitted for an increase.
  • the marker words not only localize the additional ZAW or skewable samples DAW, but also advantageously determine their priority for pitch changes.
  • the block shown in FIG. 10 is intended to illustrate the ratio of the storage space requirement which is required for the synthesis building blocks, the elements of the individual and the transition sounds. These are primarily the true sample values WAW of the elements, but also also the marker words MAW and the computationally determined additional sample values ZAW for the voiced individual sounds or the voiced areas of transition sounds.
  • the dashed line between the areas for the individual sound and the transition sound elements shows a distribution roughly in the ratio 4: 6 to 5: 6.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1. A method for the synthesis of speech with an unlimited vocabulary in the time domain from sound elements which are obtained from natural speech samples and are coded with low redundancy in digital form, stored and also reduced in length, in each case to the significant area of the relevant time signal typical of the sound, and in number, by utilizing related sounds which are mutually transformable into each other, having regard to the necessary storage space requirement, these sound elements being linked, with respect to the form, number and sequence required, into digital signal sequences on the basis of input commands and of predetermined rules of linkage for the purposes of speech synthesis, these signal sequences being used to generate, by means of digital/analog conversion and controllable amplification, sound waves which can be perceived as speech, characterized in : providing a total of about 100 sound elements, that is to say - about 50 elements for transitions sounds with an average of 240 samples each for an output frequency of 8 kHz, and - about 40 elements for phonemes with an average of 500 samples for unvoiced and 140 samples for voiced phonemes each and an output frequency of 8 kHz, and enabling the pitch to be varied for reproduction, in the case of the elements for the voiced transition sounds and phonemes, by omitting or using at least once, as a result of appropriate input commands, those samples and/or values which are preset as suitable by means of marker words at discrete positions in the time signal, depending on requirement, when the digital signal sequences are being formed.

Description

Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens.Process for the synthesis of speech with unlimited vocabulary and circuitry for carrying out the process.

Die Erfindung bezieht sich auf ein Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz im Zeitbereich aus Lautelementen, die aus natürlichen Sprachproben gewonnen und in digitaler Form, redundanzarm kodiert, gespeichert und ausserdem im Hinblick auf den erforderlichen Speicherplatzbedarf in der Länge jeweils auf den signifikanten Bereich des betreffenden lauttypischen Zeitsignals und in der Anzahl unter Ausnutzung sich gegenseitig ineinander überführbarer verwandter Laute reduziert sind, wobei zur Sprachsynthese diese Lautelemente aufgrund von Eingangsbefehlen und von vorgegebenen Verknüpfungsregeln in der erforderlichen Gestalt, Anzahl und Reihenfolge zu digitalen Signalfolgen verkettet werden, aus denen mittels Digital- Analog-Wandlung und steuerbarer Verstärkung als Sprache wahrnehmbare Schallwellen erzeugt werden, sowie auf eine Schaltanordnung zur Durchführung des Verfahrens.The invention relates to a method for the synthesis of speech with unlimited vocabulary in the time domain from sound elements that are obtained from natural speech samples and coded, stored in digital form, with little redundancy, and also with regard to the required storage space length in each case to the significant range of relevant sound-typical time signal and the number are reduced by utilizing mutually convertible related sounds, for speech synthesis these sound elements are chained in the required form, number and order to form digital signal sequences based on input commands and predetermined linking rules, from which by means of digital-analog Conversion and controllable amplification as speech-perceptible sound waves are generated, as well as on a switching arrangement for performing the method.

Unter Sprachsynthese ist die Umwandlung eines als Symbolfolge vorliegenden Textes in das äquivalente akustische Signal mittels einer technischen Apparatur zu verstehen. Dabei ist es von grundlegender Bedeutung, dass zwischen der Eingabe der Symbolfolge in die Apparatur und der Ausgabe des äquivalenten akustischen Signals alle Abläufe unmittelbar, ohne Zwischenschaltung menschlicher Verstandeskräfte stattfinden. Die genau bestimmten technischen Einzelmassnahmen folgen dabei einem planmässigen Einsatz berechen- und beherrschbarer Naturkräfte.Speech synthesis is understood to mean the conversion of a text present as a symbol sequence into the equivalent acoustic signal by means of technical equipment. It is of fundamental importance that between the input of the symbol sequence in the equipment and the output of the equivalent acoustic signal, all processes take place immediately, without the interposition of human mind powers. The precisely determined individual technical measures follow the planned use of predictable and controllable natural forces.

Die Bewertungskriterien für synthetische Sprache sind die Verständlichkeit und die Natürlichkeit. Die Massstäbe dafür sind, wenn auch z. B. bei der Verständlichkeit nach objektiven Gesichtspunkten feststellbar, subjektiver Natur. Dennoch gibt es Sachverhalte, die für die Beurteilung sofort von jedermann herangezogen werden. Dabei handelt es sich um den Verlauf der Grundtonhöhe (Pitchfrequenz), den Sprechrhythmus und um den Intensitätsverlauf. Beim Signalverlauf natürlicher Sprache gehen die Einzellaute ineinander über. Sie werden durch mehrere Lautbildungsfrequenzen (Formanten) charakterisiert. Diese Lautbildungsfrequenzen sind unabhängig von der Grundtonhöhe, d.h. unabhängig von der Sprechhöhe. Diese Sachverhalte wirken sich mehr oder weniger sowohl auf die Verständlichkeit als auch auf die Natürlichkeit aus. Während die Verständlichkeit bei bekannten Sprachsynthesesystemen bisher notgedrungen im Vordergrund stand, zielen die Bestrebungen neuerdings, nachdem eine ausreichende Verständlichkeit erreicht wurde, mehr und mehr auf Verbesserungen hinsichtlich der Natürlichkeit ab. Geringe Schwierigkeiten bestehen bei der Dynamik. Die relative Lautstärke lässt sich mit steuerbaren Verstärkern variieren. Auch die Lautdauer, und damit der Sprechrhythmus, lässt sich durch dynamische Steuerung der Wiederholanzahl der Einzellautelemente mit verhältnismässig einfachen Mitteln verändern. Problematisch hingegen ist die Beherrschung der Melodik, da die Länge der Sprachgrundfrequenzperioden für die einzelnen Laute fest vorgegeben sind und eine einfache, proportionale Verlängerung oder Verkürzung von Sprachgrundfrequenzperioden eine entsprechende Verschiebung des Formantenfrequenzspektrums bedeutet, d. h. zu völlig unnatürlichen Lauten führt.The evaluation criteria for synthetic language are intelligibility and naturalness. The standards for this are, albeit z. B. detectable in terms of intelligibility according to objective criteria, subjective nature. Nevertheless, there are circumstances that everyone can immediately use for the assessment. These are the course of the basic pitch (pitch frequency), the speaking rhythm and the course of the intensity. The individual sounds merge into one another in the course of the natural language signal. They are characterized by several sound generation frequencies (formants). These sound generation frequencies are independent of the fundamental pitch, i.e. regardless of the speech height. These facts affect more or less both the intelligibility and the naturalness. While the intelligibility of known speech synthesis systems has so far been in the foreground, efforts have recently been aimed more and more towards improvements in naturalness after sufficient intelligibility has been achieved. There are minor difficulties with the dynamics. The relative volume can be varied with controllable amplifiers. The duration of the sound, and thus the rhythm of speaking, can also be changed with relatively simple means by dynamically controlling the number of repetitions of the individual sound elements. However, mastering the melody is problematic, since the length of the fundamental speech frequency periods is fixed for the individual sounds and a simple, proportional extension or shortening of fundamental speech frequency periods means a corresponding shift in the formant frequency spectrum, i. H. leads to completely unnatural sounds.

Verständlichkeit und Natürlichkeit synthetischer Sprache hängen andererseits auch von der Leistung ab, für das das betreffende System konzipiert ist. Selbstverständlich kann bei einem System mit begrenztem Wortschatz eine hervorragende Qualität der Sprache gewährleistet werden. Komplette Wörter oder gar längere Phrasen, zudem vielleicht noch von einem geschulten Sprecher dargeboten, können unter Erhaltung der natürlichen Melodik oder Rhythmik gespeichert und auf Abruf wiedergegeben werden. Besteht die Zielsetzung für ein Sprachsynthesesystem hingegen darin, einen unbegrenzten Wortschatz zu erzeugen, muss auf kleinere Synthesebausteine, z.B. auf Laute zurückgegriffen werden. Dabei gehen auf jeden Fall Satz- und Wortdynamik sowie die Melodik zunächst verloren und sind bei der Synthese neu zu generieren. In welchem Umfang dies gelingt, ist für die Natürlichkeit synthetischer Sprache von wesentlicher Bedeutung.Comprehensibility and naturalness of synthetic language also depend on the performance for which the system in question is designed. Of course, a system with a limited vocabulary can guarantee excellent language quality. Complete words or even longer phrases, perhaps also given by a trained speaker, can be saved while maintaining the natural melody or rhythm and played back on demand. On the other hand, if the goal of a speech synthesis system is to generate an unlimited vocabulary, smaller synthesis modules, e.g. be used on sounds. In any case, sentence and word dynamics as well as the melody are lost at first and have to be regenerated during the synthesis. The extent to which this is successful is essential for the naturalness of synthetic language.

Hier nun spielen die technischen Möglichkeiten und die wirtschaftlichen Gesichtpunkte eine ausschlaggebende Rolle. Eine Klassifizierung der Synthesesysteme bzw. deren Unterteilung nach dem Syntheseprinzip

Figure imgb0001
ermöglicht eine erste Abschätzung des erforderlichen Aufwandes für die Realisierung: Eine Wortsynthese, sowohl im Zeitbereich als auch im Parameterbereich, benötigt mit wachsendem Umfang des auszugebenden Vokabulars auch ein wachsendes Speichervolumen. Derartige Systeme sind also mit vernünftigem Aufwand nur für Systeme mit begrenztem Wortschatz geeignet. Auf der Lautsynthese beruhende Systeme ermöglichen die Ausgabe eines unbeschränkten Vokabulars und erfordern unterschiedlichen Aufwand, der in der folgenden Tabelle grob angedeutet ist.
Figure imgb0002
Here, the technical possibilities and the economic aspects play a crucial role. A classification of the synthesis systems or their subdivision according to the synthesis principle
Figure imgb0001
enables a first estimate of the effort required for the implementation: word synthesis, both in the time domain and in the parameter domain, requires a growing storage volume as the volume of the vocabulary to be output increases. Such systems are therefore only suitable for systems with limited vocabulary with reasonable effort. Systems based on sound synthesis allow the output of an unlimited vocabulary and require different efforts, which are roughly indicated in the following table.
Figure imgb0002

In der technisch-wissenschaftlichen und der Patentliteratur sind die verschiedenartigen Sprachsynthesesysteme in grosser Zahl abgehandelt. So ist beispielsweise aus der DE-OS 3006339 ein Verfahren und eine Einrichtung zur Sprachsynthese bekannt, wobei zum Zwecke der Miniaturisierung eine Informations-Kompressionstechnik zur Anwendung kommen soll, die bei minimalem Verlust an Sprachverständlichkeit und Natürlichkeit eine Speicherung in einem einzigen integrierten LSI-Schaltungs-Chip möglich werden lässt. Die als Synthesebausteine abgespeicherten Phoneme (Einzellaute) sind bei der Synthese in ihrer aus dem Speicher abgerufenen Gestalt einer Veränderung oder Regulierung in bezug auf eine Anpassung des Tonhöhenintervalls, der Amplituden und der Zeitachse zu unterziehen, um sich der Qualität der natürlichen Sprache wieder anzunähern. Die angewendete Datenkompressionstechnik, die an einem Beispiel näher erläutert ist, führt dazu, dass für ein Wort (Beispiel: «nana») eine Folge weniger (im Beispiel: fünf) Phoneme abzuspeichern ist. Diese, an sich bekannten Tatsachen werden in dieser Vorveröffentlichung detailliert beschrieben. Es ist jedoch kein Hinweis darauf zu entnehmen, ob Möglichkeiten vorgesehen sind, einen unbegrenzten Wortschatz zu synthetisieren sowie Melodik und Rhythmik nach Belieben zu beeinflussen.The various types of speech synthesis systems are dealt with in large numbers in the technical-scientific and patent literature. For example, from DE-OS 3006339 a method and a device for speech synthesis is known, wherein for the purpose of miniaturization an information compression technique is to be used, which can be stored in a single integrated LSI circuit with minimal loss of intelligibility and naturalness. Chip is possible. The phonemes (individual sounds) stored as synthesis building blocks are to be subjected to a change or regulation in their shape retrieved from the memory with regard to an adaptation of the pitch interval, the amplitudes and the time axis in order to approximate the quality of natural language again. The data compression technique used, which is explained in more detail using an example, means that for one word (example: «nana») one sequence fewer (in the example: five) phonemes must be saved. These facts, which are known per se, are described in detail in this prior publication. However, there is no indication as to whether there are possibilities to synthesize an unlimited vocabulary and to influence melody and rhythm as desired.

Das aus der DE-OS 2 016 572 bekannte Sprachsynthesesystem berücksichtigt insbesondere hinsichtilich der Verständlichkeit die Probleme an den Übergängen zwischen aufeinanderfolgenden Phonemen. Da die Formantfrequenzen - eine Berücksichtigung der drei Hauptformanten ist ausreichend-an den Übergängen zunehmen, abnehmen oder gleich bleiben können, ergeben sich rein rechnerisch für jedes abzuspeichernde Phonem neun Versionen. Um nicht die Speicherkapazität um praktisch eine weitere Zehnerpotenz erhöhen zu müssen, zielt die Lösung bei diesem bekannten Stand der Technik darauf ab, mit einer gespeicherten Version auszukommen und diese Darstellung den Erfordernissen entsprechend während des Synthesevorgangs zu modifizieren. Ausserdem wird lediglich der signifikante Bereich der einzelnen Laute abgespeichert, der z.B. bei einem /s/-Laut nur 10% der gesamten Lautdauer betragen muss und dementsprechend durch zehnmaliges Wiederholen genau genug und verständlich reproduzierbar ist. Zur Vermeidung von abrupten Über gängen zwischen zwei aufeinanderfolgenden Phonemen sollten die gespeicherten Abschnitte mit einem Schwingungs-Nulldurchgang beginnen. Für stimmhafte Phoneme ist ausserdem die Eignung am Übergang zu anderen Phonemen in besonderer Weise - einer subjektiven Prüfung - auszuwählen. Durch diesen Kompromiss lassen sich zwar abrupte Übergänge vermeiden oder zumindest auf einen geringen Umfang reduzieren, wobei jedoch andererseits auf völlig stossfreie Übergänge verzichtet werden muss.The speech synthesis system known from DE-OS 2 016 572 takes into account the problems at the transitions between successive phonemes in particular with regard to intelligibility. Since the formant frequencies - taking into account the three main formants is sufficient - can increase, decrease or remain the same at the transitions, there are nine versions for each phoneme to be stored purely mathematically. In order not to have to increase the storage capacity by practically a further power of ten, the solution in this known prior art aims to get by with a stored version and to modify this representation according to the requirements during the synthesis process. In addition, only the significant range of the individual sounds is saved, e.g. with a / s / -loud only 10% of the total duration of the sound and can be reproduced exactly enough and understandably by repeating ten times. In order to avoid abrupt transitions between two consecutive phonemes, the saved sections should start with an oscillation zero crossing. For voiced phonemes, the suitability at the transition to other phonemes must also be selected in a special way - a subjective test. With this compromise, abrupt transitions can be avoided or at least reduced to a small extent, but on the other hand, completely smooth transitions must be avoided.

Dem aus der DE-OS 2306816 bekannten Sprachgenerator liegt als Aufgabenstellung bei der Aufbereitung phonetischer Segmente zugrunde, einen umfassenden Tonhöhenperioden-Regelbereich der synthetisierten Laute zu schaffen, der der Verbesserung der Natürlichkeit und der Verständlichkeit zugute kommen soll. Als Lösung wird dazu angegeben, bei stimmhaften Lauten mit definierter Periodizität jeder Tonhöhenlänge Laut-Wellenformen aus natürlicher Sprache herauszugreifen und jeder solchen Wellenform am Endbereich eine Wellenform hinzuzufügen, die durch eine überschlägige Rechnung für die Wellenform des jeweiligen Lauts gewonnen wurde. Laut-Wellenformen von stimmlosen Lauten und die Übergänge zwischen Konsonanten und Vokalen, die eine undefinierte Periodizität aufweisen, sollen in feste Längen unterteilt werden. Die so gewonnenen Laut-Wellenformen stellen dann die Synthesebausteine dar. Eine Veränderung der Dauer einer Pitchperiode hat aber nicht nur eine entsprechende Tonhöhenveränderung, sondern - wie bereits oben schon erwähnt und auch nachfolgend noch näher erläutert wird - auch eine Lautverschiebung bzw. eine Verunreinigung zur Folge.The task known from DE-OS 2306816 is based on the task in the preparation of phonetic segments to create a comprehensive range of pitch periods for the synthesized sounds, which should benefit the improvement of naturalness and intelligibility. The solution given is to pick out sound waveforms from natural language for voiced sounds with defined periodicity of each pitch length and to add a waveform to each such waveform at the end area that was obtained by a rough calculation for the waveform of the respective sound. Sound waveforms of unvoiced sounds and the transitions between consonants and vowels that have an undefined periodicity should be divided into fixed lengths. The sound waveforms obtained in this way then represent the synthesis building blocks. However, changing the duration of a pitch period not only results in a corresponding change in pitch, but also - as already mentioned above and also explained in more detail below - also results in a sound shift or contamination .

In IEEE Spectrum, Band 16, Nr. 8, August 1979, Seiten 22, 23 und Elektronik, Band 26, Heft 9, September 1977, Seiten 44 bis 48 wird auf das bekannte «VOTRAX»-System hingewiesen. Dabei handelt es sich um eine Sprachsynthese nach dem Formant-Vocoder-Prinzip (Vocoder = Voice Coder), für das in der Analysephase einige wenige charakteristische Parameter aus allen benötigten Lauten ermittelt werden, insbesondere die Formanten, die Lautdauer und dergleichen. Die abgespeicherten Parameter werden bei der Synthese zur Steuerung eines mit elektronischen Mitteln nachgebildeten Vokaltrakts benutzt. Dieses bekannte System erfordert, wie weiter oben bereits erwähnt ist, zwar nur wenig Speicherplatz für die Parameterdaten, jedoch wird für die Regenerierung der Laute ein erheblicher Aufwand benötigt.In IEEE Spectrum, Volume 16, No. 8, August 1979, Pages 22, 23 and Electronics, Volume 26, Issue 9, September 1977, Pages 44 to 48, reference is made to the known “VOTRAX” system. This is a speech synthesis based on the formant vocoder principle (vocoder = voice coder), for which a few characteristic parameters are determined from all the sounds required in the analysis phase, in particular the formants, the duration of the sound and the like. The stored parameters are used in the synthesis to control a vocal tract simulated by electronic means. As already mentioned above, this known system requires little storage space for the parameter data, but considerable effort is required to regenerate the sounds.

Bei der Erfindung wird von einem Stand der Technik ausgegangen, wie er aus der DE-OS 2 531 006 bekannt und im Oberbegriff des Anspruches 1 berücksichtigt ist. Die danach bei guter Verständlichkeit mögliche Reduktion führte bereits zu einem benötigten Speichervolumen für die Speicherung der Sprachdaten, unkodiert, im Zeitbereich von nur noch ca. 1 Mbit, entsprechend 125 kByte. Ziel der Erfindung ist nun, den Speicherplatzbedarf weiter zu verringern und insbesondere im Hinblick auf die Natürlichkeit der zu synthetisierenden Sprache einfach beherrschende Massnahmen zur Wort- und Satz-Melodievariation anzugeben, womit die der Sprachsynthese im Zeitbereich innewohnenden Vorzüge in bezug auf die Verständlichkeit, den Synthesealgorithmus und die Synthetisiergeschwindigkeit erheblich an Bedeutung gegenüber den im Parameterbereich arbeitenden Systemen gewinnen. Gemäss der Erfindung wird dies dadurch erreicht, dass insgesamt ca. 100 Lautelemente vorgesehen sind, nämlich:

  • - etwa 50 Elemente für Übergangslaute mit je durchschnittlich 240 Abtastwerten für 8 kHz Ausgabefrequenz

und
  • - etwa 40 Elemente für Einzellaute mit je durchschnittlich 500 Abtastwerten bei stimmlosen und 140 Abtastwerten bei stimmhaften Einzellauten und 8 kHz Ausgabefrequenz,

und dass die Tonhöhe für die Wiedergabe bei den Elementen für die stimmhaften Übergangs- und Einzellaute veränderbar ist, indem solche Abtastwerte, die an diskreten Stellen des Zeitsignals mittels Markierwörtern als geeignet vorgegeben sind, je nach Bedarf aufgrund entsprechender Eingangsbefehle bei der Bildung der digitalen Signalfolgen ausgelassen bzw. mindestens einmal verwendet werden.The invention is based on a prior art as known from DE-OS 2 531 006 and taken into account in the preamble of claim 1. The subsequent reduction, which is easy to understand, already led to the storage volume required for storing the voice data, uncoded, in the time range of only approx. 1 Mbit, corresponding to 125 kByte. The aim of the invention is now to further reduce the storage space requirement and, in particular with regard to the naturalness of the speech to be synthesized, to provide simple control measures for word and sentence melody variation, with which the advantages inherent in speech synthesis in the time domain with regard to comprehensibility, the synthesis algorithm and the rate of synthesis becomes significantly more important than the systems working in the parameter area. According to the invention, this is achieved in that a total of approximately 100 sound elements are provided, namely:
  • - about 50 elements for transitional sounds each an average of 240 samples for 8 kHz output frequency

and
  • - about 40 elements for individual sounds, each with an average of 500 samples for voiceless and 140 samples for voiced individual sounds and 8 kHz output frequency,

and that the pitch for the reproduction of the elements for the voiced transitional and individual sounds can be changed by omitting such sample values, which are specified as suitable at discrete points of the time signal by means of marker words, as required on the basis of corresponding input commands when forming the digital signal sequences or be used at least once.

Ohne die Bedeutung der angegebenen Einzelheiten bei der Reduzierung der Sprachdaten schmälern zu wollen, werden nachfolgend zunächst die Massnahmen für die Melodievariation näher erläutert. Wesentlich dafür ist die Tatsache, dass Veränderungen der Melodie von Sprache auf die stimmhaften Anteile entfallen und dass stimmhafte Laute eine grosse Periodizität aufweisen. Die zu speichernden signifikanten Bereiche benötigen also nur verhältnismässig wenig wahre Abtastwerte, in der Grössenordnung von 80 wahren Abtastwerten je stimmhaften Einzellaut. Innerhalb dieser signifikanten Bereiche, die eine Pitchperiode darstellen und das lauttypische Frequenzgemisch der Formanten enthalten, gibt es mehrere diskrete Stellen, an denen das Formantenfrequenzgemisch im Zeitsignalverlauf kaum oder nur geringfügige Veränderungen zeigt. Die für die Erfindung wesentliche Erkenntnis liegt nun darin, genau an diesen «unempfindlichen» diskreten Stellen bewusst Veränderungsmöglichkeiten vorzusehen. Das bedeutet, die Pitchperiode kann verändert, verlängert oder verkürzt, und damit die Grundtonhöhe entsprechend abgesenkt oder angehoben werden, wenn Abtastwerte an diesen diskreten Stellen verwendet oder ausgelassen werden, ohne dass sich dadurch der Lautcharakter ändert. Zur Lokalisierung dieser diskreten Stellen, etwa 30 innerhalb eines derartigen signifikanten Bereiches, dienen besondere «Abtastwerte», die Markierwörter, die es erlauben, diese Stellen jederzeit aufzufinden. Die Markierwörter selbst entfallen bei der Verkettung der Elemente zu den digitalen Signalfolgen. Entsprechend dazu lassen 60 Abtastwerte, z. B. die jeweils einem Markierwort benachbarten, je nachdem, ob sie verwendet werden oder nicht, eine praktisch kontinuierliche Variation der Tonhöhe, also sehr viele Melodieverläufe zu.Without wishing to reduce the meaning of the details given in the reduction of the speech data, the measures for the melody variation are first explained in more detail below. What is essential for this is the fact that changes in the melody of speech are accounted for by the voiced parts and that voiced sounds have a high periodicity. The significant areas to be stored thus require only relatively few true samples, in the order of 80 true samples per voiced individual sound. Within these significant areas, which represent a pitch period and contain the typical frequency mix of the formants, there are several discrete places where the formant frequency mix shows little or no changes in the time signal curve. The key finding for the invention now lies in deliberately providing possible changes at precisely these “insensitive” discrete points. This means that the pitch period can be changed, lengthened or shortened, and thus the fundamental pitch can be lowered or raised accordingly, if samples are used or omitted at these discrete locations without the sound character thereby changing. To locate these discrete locations, approximately 30 within such a significant area, special “samples” are used, the marker words, which allow these locations to be found at any time. The marker words themselves are omitted when the elements are linked to form the digital signal sequences. Accordingly, 60 samples, e.g. B. the one adjacent to a marker word, depending on whether they are used or not, a practically continuous variation of the pitch, so very many melody lines.

Dies soll anhand der nachfolgenden, tabellarischen Übersicht im Vergleich mit einigen in der Akustik gebräuchlichen Intervallen etwas näher erläutert werden. Als Beispiel dient ein abgespeichertes Element für einen stimmhaften Einzellaut mit 120 Abtastwerten, zuzüglich 30 Markierungen für solche Stellen, an denen Tonlagenveränderungen vorgenommen werden können. Bei den 120 Abtastwerten kann es sich - wie weiter unten im Zusammenhang mit besonders bevorzugten Ausführungsformen der Erfindung noch näher erläu-

Figure imgb0003
tert wird -z.B. um 90 wahre, d.h. aus natürlicher Sprache gewonnene, und um 30 berechnete Abtastwerte handeln. Wird - bei Tonhöhenvariation in nur einer Richtung - die tiefste Tonlage gewünscht, sind alle 120 Abtastwerte zu benutzen. Zur Erhöhung der Tonlage können zunächst berechnete Abtastwerte ausgelassen werden. Eine weitere Erhöhung ist durch Auslassen von maximal 30 wahren Abtastwerten an den unempfindlichen Stellen möglich. Hierdurch kann die Tonlage insgesamt innerhalb einer Oktave verändert werden.This should be explained in more detail using the table below in comparison with some of the intervals used in acoustics. An example is a saved element for a voiced individual sound with 120 samples, plus 30 markings for places where pitch changes can be made. The 120 samples can - as explained in more detail below in connection with particularly preferred embodiments of the invention -
Figure imgb0003
For example, tert will deal with 90 true samples, ie those obtained from natural language, and 30 calculated samples. If the lowest pitch is desired - with pitch variation in only one direction - all 120 samples must be used. In order to increase the pitch, calculated sample values can first be omitted. A further increase is possible by leaving out a maximum of 30 true samples at the insensitive points. As a result, the pitch can be changed within an octave.

Es ist aber auch denkbar, dass noch tiefere Tonlagen gewünscht werden. Dies kann dadurch erreicht werden, dass insbesondere von den berechneten Abtastwerten einige, maximal alle, innerhalb einer Periode mehrfach ausgegeben werden.But it is also conceivable that even lower pitches are desired. This can be achieved in that some, at most all, of the calculated sample values are output multiple times within a period.

Die Tabelle enthält die beiden genannten Möglichkeiten (vgl. auch Fig. 9 und zugehörige Beschreibung).The table contains the two options mentioned (cf. also FIG. 9 and associated description).

Bei der chromatischen Tonleiter stehen die Schwingungszahlen zweier benachbarter Halbtöne im Verhältnis

  • Figure imgb0004

zueinander. Aus der Tabelle ist zu entnehmen, dass beim gewählten Beispiel in der Nähe der vorgegebenen normalen Tonlage für einen Halbtonschritt eine Änderung um 5 bzw. 7 Abtastwerte pro Periode benötigt wird, d. h. schon Tonlagenänderungen um weniger als Halbtonschritte möglich sind. Übrigens können besonders geeignete Abtastwerte bereits mehrmals zur Toniagenänderung benutzt werden, bevor auf weniger gut geeignete zurückgegriffen wird. Hierdurch lassen sich auch die Sprachgrundfrequenzverläufe an den Übergängen zu den folgenden Lauten kontinuierlich gestalten, also Stossstellen vermeiden.With the chromatic scale, the number of oscillations between two adjacent semitones is in relation
  • Figure imgb0004

to each other. From the table it can be seen that in the selected example, a change of 5 or 7 samples per period is required for a semitone step in the vicinity of the predetermined normal pitch, ie changes in pitch by less than semitone steps are possible. Incidentally, particularly suitable samples can already be used several times to change the tone before using less suitable ones. As a result, the fundamental speech frequency curves at the transitions to the following sounds can be designed continuously, thus avoiding joints.

Hierin liegt auch ein Grund dafür, dass als Synthesebausteine insgesamt nur ca. 100 Lautelemente benötigt werden. Bei der Aufbereitung der Lautelemente, also in der Analysephase, sind die natürlichen Sprachproben, aus denen die zu verwendenden Lautelemente gewonnen werden, ohnehin zu untersuchen, beispielsweise die oben erwähnten «unempfindlichen» Stellen zu bestimmen. Dabei lassen sich diese Sprachproben rechnerisch modifizieren, insbesondere bei Übergangslauten Diskontinuitäten in den Formantverläufen eleminieren.This is also one of the reasons why only about 100 sound elements are required as synthesis building blocks. When preparing the sound elements, i.e. in the analysis phase, the natural speech samples from which the sound elements to be used are obtained are to be examined anyway, for example to determine the «insensitive» points mentioned above. These speech samples can be modified mathematically, especially in the case of transitional noises, discontinuities in the formant courses can be eliminated.

Die Ausnutzung von Lauttransformationen, d.h. einer gegenseitigen Überführbarkeit verwandter Laute, war bereits Gegenstand beim aus der DE-OS 2 531 006 bekannten Stand der Technik, von dem die Erfindung ausgeht. Dort führte die Reduzierung z.B. bei den Konsonanten von 22 auf 8. Weiterhin waren etliche Ausnahmen, etwa 150 Übergänge, je eine Pitchperiode stimmhafter Laute sowie ein Abschnitt aus dem Mittelteil der stimmlosen Laute und schliesslich bei Explosivlauten noch der Anfang der Zeitfunktion zu speichern. Bei der Erfindung ergibt sich eine erhebliche Reduzierung aufgrund folgender Massnahmen: Übergänge - ausgenommen Plosivlautkombinationen - fassen sich zeitlich invertieren; durch Verlängern bzw. Verkürzen der Lautdauer finden Vokalumwandlungen statt, durch Verkürzen der Lautdauer ergeben sich auch Konsonantenumwandlungen. Die benötigten Lautelemente setzen sich dadurch zusammen aus knapp 60 Elementen für Übergangslaute, 27 Elementen für stimmhafte Einzellaute und 13 Elementen für stimmlose Einzellaute. Weitere Einzelheiten dazu folgen noch im Zusammenhang mit der Figurenbeschreibung.The exploitation of sound transformations, i.e. mutual transferability of related sounds has already been the subject of the prior art known from DE-OS 2 531 006, from which the invention is based. There the reduction led e.g. for the consonants from 22 to 8. Furthermore, a number of exceptions, about 150 transitions, a pitch period of voiced sounds as well as a section from the middle part of the unvoiced sounds and finally the beginning of the time function for explosive sounds had to be saved. In the invention there is a considerable reduction due to the following measures: transitions - with the exception of combinations of plosives - can be inverted in time; by lengthening or shortening the length of time, vowel conversions take place; by shortening the length of time, there are also consonant conversions. The required sound elements are made up of almost 60 elements for transitional sounds, 27 elements for voiced individual sounds and 13 elements for unvoiced individual sounds. Further details follow in connection with the description of the figures.

Besonders bevorzugte Ausführungsformen der Erfindung bestehen darin, dass in den digital gespeicherten Elementen für die stimmhaften Laute - mit durchschnittlich 140 Abtastwerten bei Einzellauten bzw. 240 bei Übergangsiauten-zusätzliche Abtastwerte zum Zwecke der Tonhöhenvariation enthalten sind. Diese Massnahme führt im ungünstigsten, von dieser Ausführungsform dann nicht mehr erfassten Fall zwar zu einer geringfügigen Erhöhung um ca. 1000 Byte des benötigten Speicherplatzvolumens, ermöglicht aber weitergehende Variationen in den Melodieverläufen.Particularly preferred embodiments of the invention consist in the fact that the digitally stored elements for the voiced sounds - with an average of 140 samples for individual sounds or 240 for transition sounds - contain additional samples for the purpose of pitch variation. In the worst case, which is then no longer covered by this embodiment, this measure leads to a slight increase by approximately 1000 bytes of the required storage space volume, but enables further variations in the melody courses.

Im engen Zusammenhang damit ist es weiterhin vorteilhaft, wenn ein zusätzlicher Abtastwert einen zwischen den benachbarten wahren Abtastwerten liegenden interpolierten Wert besitzt. Auf diese Weise lassen sich eventuelle Diskontinuitäten verringern oder vermeiden, die zwischen den wahren Abtastwerten, die auf jeden Fall benötigt und verwendet werden, auftreten würden.In close connection with this, it is also advantageous if an additional sample value has an interpolated value lying between the adjacent true sample values. In this way, any discontinuities that would occur between the true samples that are definitely needed and used can be reduced or avoided.

Wie bereits weiter oben schon erwähnt, sind für die Massnahmen zur Melodivariation «unempfind- liche» Stellen in den Zeitverläufen bevorzugt, d.h. Markierwörter sind vorzugsweise an Stellen geringer Steigung des Zeitsignals vorzusehen. Ein zugehöriges Fehlersignal weist an solchen Stellen sehr kleine Ausschläge auf und erlaubt damit auf einfache Weise, die gewünschten diskreten Stellen zu ermitteln, zu lokalisieren und zu markieren.As already mentioned above, "unemp f ind Liche" sites are preferred in the timings for the measures to Melodivariation, that mark words are to be provided preferably at points of low slope of the time signal. An associated error signal has very small deflections at such locations and thus allows the desired discrete locations to be determined, localized and marked in a simple manner.

Manchmal, besonders bei grossen, erwünschten Tonhöhenschwankungen, kann es erforderlich sein, den möglichen Bereich der für Auslassungen bzw. die Verwendung geeigneten Abtastwerte voll auszunutzen. Häufiger sind jedoch die Fälle, in denen nur einige der zur Verfügung stehenden vorgegebenen Abtastwerte benötigt werden. Aus diesem Grunde ist es günstig, wenn Markierwörter an Stellen geringer Steigung des Zeitsignals mit einer höheren Priorität für Tonhöhenvariation ausgestattet sind als solche an Stellen mit grösserer Steigung. Das bedeutet, zunächst erfolgen derartige Veränderungen immer an den unempfindlichsten Stellen, gegebenenfalls werden aber auch die empfindlicheren Stellen dazu herangezogen.Sometimes, especially with large, desired pitch fluctuations, it may be necessary to take full advantage of the possible range of samples suitable for omissions or use. However, the cases are more frequent in which only some of the predefined sample values available are required. For this reason, it is advantageous if marking words at points with a small slope of the time signal are given a higher priority for pitch variation than those at points with a larger slope. This means that such changes always take place at the least sensitive areas, but the more sensitive areas may also be used.

Obwohl durchaus auch die Möglichkeit besteht, bei den für Tonhöhenvariation als geeignet vorgegebenen Abtastwerten getrennt vom gespeicherten Lautelement die zugehörigen Adressen zu verwalten, wird bei den Ausführungsformen der Erfindung die Lösung mit den Markierwörtern bevorzugt. Dabei können ein Markierwort und ein wahrer oder zusätzlicher Abtastwert digitale Muster desselben Vorrats aufweisen. Hinsichtlich einer eindeutigen Unterscheidbarkeit zwischen Markierwort und Abtastwert sollen dann jedoch Markierwörtern digitale Muster vorbehalten sein, die bei den Abtastwerten nicht vorkommen.Although it is also possible to manage the associated addresses separately from the stored sound element for the sample values which are suitable for pitch variation, the solution with the marker words is preferred in the embodiments of the invention. A marker word and a true or additional sample value digital Mu of the same stock. With regard to a clear distinction between the marker word and the sample value, however, marker words are to be reserved for digital words which do not occur in the sample values.

Allein schon aus Gründen unterschiedlicher Prioritäten reicht ein einziges Muster für Markierwörter nicht aus. Da eine softwaremässige Identifizierung der Muster keine besondere Systematik bei der Verteilung der digitalen Muster erfordert, ist es ohne weiteres möglich, für Markierwörter die Muster mit den höchsten Stellenzahlen, bei 8-bit-Wörtern z.B. die Muster 246, 247, ... 255, vorzubehalten. Diese Muster können bei der Digitalisierung der Abtastwerte deshalb auf besonders vorteilhafte Weise ausgespart werden, weil eine Begrenzung am oberen Ende zu kaum spürbaren Beschränkungen führt.For reasons of different priorities alone, a single pattern for marker words is not sufficient. Since a software identification of the patterns does not require any special systematic for the distribution of the digital patterns, it is easily possible to use the patterns with the highest number of digits for marking words, e.g. with 8-bit words. reserve patterns 246, 247, ... 255. These patterns can be omitted in a particularly advantageous manner when digitizing the sampled values because a limitation at the upper end leads to hardly noticeable restrictions.

Von besonderer Bedeutung ist es für Ausführungsformen der Erfindung, während der Wortpausen die Gestalt der für die Verkettung des nächstfolgenden Wortes benötigten Lautelemente anhand der Eingangsbefehle bestimmen zu können. Hierdurch werden Diskontinuitäten bei der Ausgabe der einzelnen Wörter vermieden. Die Dauer für die Bestimmung der Gestalt der benötigten Synthesebausteine liegt, auch für sehr lange Wörter, im Bereich von wenigen Millisekunden. Unter Bestimmung der Gestalt ist hier zu verstehen: aufsuchen des betreffenden Lautelements, gegebenenfalls zeitlich invertieren, Lautdauer verlängern bzw. verkürzen und Wiederholanzahl des gespeicherten Lautelements angeben.It is of particular importance for embodiments of the invention to be able to determine the shape of the sound elements required for the concatenation of the next word following the pauses on the basis of the input commands. This avoids discontinuities in the output of the individual words. The duration for determining the shape of the required synthesis building blocks, even for very long words, is in the range of a few milliseconds. Determining the shape is to be understood here: searching for the relevant sound element, possibly inverting in time, lengthening or shortening the duration of the sound and specifying the number of repetitions of the stored sound element.

Ein weiterer wesentlicher Vorzug der Erfindung besteht darin, dass über eine alphanumerische Tastatur eingegebene Folgen üblicher Schriftzeichen in einem dem eigentlichen Synthesevorgang vorausgehenden Verfahrensschritt selbsttätig in eine als Eingangsbefehle geeignete Folge von Lautschriftzeichen transkribiert werden kann. Hierdurch wird auch ungeübten bzw. nicht geschulten Benutzern die Anwendung erheblich erleichtert bzw. überhaupt erst eröffnet. Selbstverständlich bleibt dabei auch die Möglichkeit bestehen, Lautschriftzeichen bzw. die geeigneten Eingangsbefehle unmittelbar einzugeben.A further essential advantage of the invention is that sequences of conventional characters entered via an alphanumeric keyboard can be automatically transcribed into a sequence of phonetic characters suitable as input commands in a method step preceding the actual synthesis process. As a result, even inexperienced or untrained users will find it much easier to use, or even opened up. Of course, there is also the option of entering phonetic characters or the appropriate input commands directly.

Für die Transkription ist allerdingd weiteres Speichervolumen erforderlich. Überraschend ist dabei, dass dafür jedoch nur etwa ein Drittel desjenigen Speicherplatzvolumens benötigt wird, der für die Synthese vorzusehen ist, d.h. etwa ein Viertel des gesamten Speicherplatzvolumens für Synthese und Transkription, wenn die Transkription auf folgende Art durchgeführt wird: zunächst werden lexikalisch erfasste Ausnahmen und Fremdwörter bearbeitet; ansonsten wird der Wortschatz einer Präfixverarbeitung, unter Berücksichtigung von Ausnahmen, einer Endungsabspaltung und einer Suffixverarbeitung, ebenfalls unter Berücksichtigung von Ausnahmen, unterzogen und die Transkription der Wortstämme nach katalogartig gespeicherten Regeln durchgeführt. Diese oder ähnliche Massnahmen sind für Sprachwissenschaftler an sich geläufig.However, additional storage volume is required for the transcription. It is surprising that only about a third of the storage space that is to be provided for the synthesis is required for this, i.e. about a quarter of the total storage space for synthesis and transcription, if the transcription is carried out in the following way: first, lexically recorded exceptions and foreign words are processed; Otherwise, the vocabulary is subjected to a prefix processing, taking exceptions into account, an ending split-off and a suffix processing, also taking exceptions into account, and the transcription of the stems is carried out according to rules stored in a catalog. These or similar measures are familiar to linguists per se.

Eine Schaltungsanordnung zur Durchführung des erfindungsgemässen Verfahrens kann mit einem Mikroprozessor aufgebaut sein, an den Festwertspeicher mit einer Speicherkapazität von insgesamt 32 kByte und ein Arbeitsspeicher für 1 kByte anzuschliessen sind, und weist ausserdem einen dekompandierenden Digital-Analog-Wandler und einen -lautstärkeregelbaren-Niederfrequenzverstärker und einen Lautsprecher als elektro-akustische Wandlereinrichtung auf. Derartige Schaltungselemente und Bauteile sind markt- üblich. Das Konzept ermöglicht aber auch eine weitgehende Integration.A circuit arrangement for carrying out the method according to the invention can be constructed with a microprocessor, to which read-only memories with a total storage capacity of 32 kbytes and a working memory for 1 kbyte are to be connected, and also has a decompanding digital-to-analog converter and a -volume-controllable low-frequency amplifier and a loudspeaker as an electro-acoustic transducer device. Such circuit elements and components are common on the market. The concept also enables extensive integration.

Die Dekomparadierung vor der Digital-Analog-Wandlung beinhaltet selbstverständlich, dass zuvor die gespeicherten Daten einer die Datenrate reduzierenden Kodierung unterzogen wurden. Gebräuchliche und in der angegebenen Reihenfolge immer stärker reduzierende Verfahren sind die logarithmische PCM und die Adaptive-Delta-PCM. Aus gebräuchlichen Sprach-Übertragungssystemen sind betreffende Bauteile bekannt und ohne weiteres auch bei Ausführungsformen der Erfindung einzusetzen.Decomparing before the digital-to-analog conversion naturally means that the stored data have previously been subjected to coding which reduces the data rate. The logarithmic PCM and the adaptive delta PCM are common and increasingly reducing methods in the order given. Relevant components are known from common voice transmission systems and can also be used without problems in embodiments of the invention.

Hinsichtlich des Aufwandes bei Schaltungsanordnungen sind noch immer die Speicher, genauer gesagt deren Grösse, von Bedeutung. Deshalb ist es wichtig für Kostenabschätzungen, dass bei einer Schaltungsanordnung zur Durchführung des erfindungsgemässen Verfahrens die Aufteilung der Kapazität von Festwertspeichern in:

  • 1,5 kByte für das Transkriptionsprogramm,
  • 6 kByte für die Transkriptionsgrammatik,
  • 1,5 kByte für das Syntheseprogramm,
  • 1 kByte für die Synthesematrix und
  • 22 kByte für die Lautelemente

erfolgen kann.With regard to the complexity of circuit arrangements, the memories, more precisely their size, are still important. It is therefore important for cost estimates that, in the case of a circuit arrangement for carrying out the method according to the invention, the division of the capacity of read-only memories into:
  • 1.5 kByte for the transcription program,
  • 6 kByte for the transcription grammar,
  • 1.5 kByte for the synthesis program,
  • 1 kbyte for the synthesis matrix and
  • 22 kByte for the sound elements

can be done.

Schliesslich ist es für die verschiedenartigen Einsatzgebiete von Ausführungsformen der Erfindung wichtig, dass die Eingabe der Daten, d.h. der Schreib- oder Lautschriftsymbolfolgen, sowie die Ausgabe der akustischen Signale sowohl direkt am Gerät als auch jeweils an entfernten Orten erfolgen kann. Dazu kann entsprechend am Eingang z.B. eine V24-Schnittstelle bzw. am Ausgang eine Niederfrequenzbuchse vorgesehen sein.Finally, for the various uses of embodiments of the invention, it is important that the input of the data, i.e. the writing or phonetic symbol sequences, as well as the output of the acoustic signals can take place both directly on the device and at remote locations. For this purpose, e.g. at the entrance a V24 interface or a low-frequency socket can be provided at the output.

Die Anwendungsmöglichkeiten für ein derartiges Sprachsynthesesystem sind aufgrund der Möglichkeit, ein unbegrenztes Vokabular zu generieren, äusserst mannigfaltig. Beispielhaft sollen erwähnt sein: Telefon-Auskunftssysteme; akustischer Ersatz oder Unterstützung bei unübersichtlichen Anzeigetafeln, insbesondere Flug- oder Fahrplänen; Ersatz oder Ergänzung dort, wo die Aufmerksamkeit von Personen durch Dauerbeobachtung einzelner Ziffern- oder Textanzeigen oder Warnanlagen über Gebühr beansprucht wird, z.B. bei Flugzeug-Bordsystemen; Tastenwahltelefone als Eingabetastatur und Telefonhörer als Ausgabe bei Datenverarbeitungsanlagen, z.B. für Auskünfte sich laufend ändernder Daten, wie Lagerbestände, Kontenstände, Börsenkurse, medizinische Diagnosen oder laufende Überwachung von Körperfunktionen von Patienten im Krankenhaus oder zu Hause; Bestellungen von Waren nach Katalognummern, von Theater- oder Konzertkarten; Erteilung und Annahme von Aufträgen, Umdispositionen u. dgl.; Fernübertragung von Prozessdaten; Hausleitsysteme; Sprachen-Unterricht; Computergestützter Unterricht; Verkehrsleitung; Bibliotheken-Anfragen und Auskünfte; Lexikon-Auskunftsdienst, Hilfe für Behinderte - Sprach- und Sehbehinderte - und vieles mehr.The possible uses for such a speech synthesis system are extremely varied due to the possibility of generating an unlimited vocabulary. Examples include: telephone information systems; acoustic replacement or support for confusing display boards, in particular flight or timetable plans; Replacement or supplementation where the attention of people is unduly claimed through constant observation of individual numerical or text displays or warning systems, for example in aircraft on-board systems; Keypad telephones as input keyboard and telephone handset as output in data processing systems, for example for information on continuously changing data, such as inventory levels, account balances, stock exchange prices, medical diagnoses or continuous monitoring of body functions of patients in the hospital or at home; Orders of goods according to catalog numbers, theater or Concert tickets; Placing and accepting orders, redistribution, etc. the like; Remote transmission of process data; Home control systems; Language teaching; Computer aided instruction; Traffic management; Library inquiries and information; Lexicon information service, help for the disabled - speech and visual impaired - and much more.

In den Zeichnungen sind Einzelheiten für Ausführungsformen der Erfindung schematisch dargestellt. Dabei zeigen:

  • Fig.1: ein Blockschaltbild für ein Sprachsynthesegerät mit Transkriptionseinheit,
  • Fig. 2: ein Blockschaltbild eines Sprachsynthesegerätes mit Transkriptionseinheit, auf Mikroprozessorbasis;
  • Fig. 3: eine Darstellung der Lage der drei ersten Formanten für verschiedene Laute;
  • Fig. 4: eine Darstellung von Formantsprüngen an den Übergängen zwischen drei Einzellauten;
  • Fig. 5: eine Darstellung für die Reduktionsmöglichkeit der Länge von Elementen;
  • Fig. 6a: ein Beispiel für zeitliche Invertierung von Übergangslauten;
  • Fig. 6b: die Möglichkeiten für Vokalumwandlungen;
  • Fig. 6c: die Möglichkeiten für Konsonantenumwandlungen;
  • Fig. 7: ein Beispiel für die Veränderung des Höreindrucks durch Verschieben des Anfangspunktes;
  • Fig. 8a,b,c: ein Beispiel für die rechnerische Modifizierung eines stimmhaften Einzellautes zur Variation der Tonhöhe;
  • Fig. 9: ein - auszugsweises - Beispiel für die Anordnung von wahren, auslassbaren und zusätzlichen Abtastwerten sowie von Markierwörtern in einem gespeicherten Element eines stimmhaften Einzellautes;
  • Fig. 10: eine Darstellung der Aufteilung und des Inhaltes des Lautelemente-Speichers,-
  • Fig.11: eine Darstellung des Ablaufs einer Transkription und
  • Fig. 12: eine Darstellung eines Synthesebeispiels (monoton).
Details of embodiments of the invention are shown schematically in the drawings. Show:
  • 1: a block diagram for a speech synthesis device with a transcription unit,
  • 2 shows a block diagram of a speech synthesis device with a transcription unit, based on a microprocessor;
  • 3 shows a representation of the position of the first three formants for different sounds;
  • 4: a representation of formant jumps at the transitions between three individual tones;
  • 5 shows a representation of the possibility of reducing the length of elements;
  • 6a: an example for temporal inversion of transition sounds;
  • 6b: the possibilities for vowel conversions;
  • 6c: the possibilities for consonant conversions;
  • 7 shows an example of the change in the auditory impression by shifting the starting point;
  • 8a, b, c: an example of the computational modification of a voiced individual sound to vary the pitch;
  • 9: an excerpt of an example of the arrangement of true, skipable and additional sample values as well as marker words in a stored element of a voiced individual sound;
  • 10: a representation of the division and the content of the sound element memory,
  • 11: a representation of the sequence of a transcription and
  • Fig. 12: a representation of a synthesis example (monotone).

Wie die Fig. 1 zeigt, besteht ein Sprachsynthesesystem bei Ausführungsformen nach der Erfindung im wesentlichen aus zwei Einzelheiten, der für die Transkription und der für die Synthese selbst. Einzugeben ist entweder eine Schriftzeichenfolge, was über eine alphanumerische Tastatur oder über eine V24-Schnittstelle geschehen kann, oder aber eine Lautzeichenfolge. Obwohl geübte bzw. geschulte Benutzer über geeignete Tastaturen auch die Lautzeichenfolgen unmittelbar eingeben können, wird in den meisten Anwendungsfällen bei einem Verzicht auf die Transkription die Syntheseeinheit dann wohl die entsprechenden Eingangssignale von einem entfernten Ort über eine Datenleitung und die V24-Schnittstelle erhalten. Selbstverständlich lassen sich auch andere Schnittstellenbedingungen einhalten und im Rahmen fachmännischen Könnens realisieren. Die Transkriptionseinheit greift auf vorbereitete Regeln, unter dem Begriff Grammatik zusammengefasst, zurück, die Syntheseeinheit im wesentlichen auf die gespeicherten Lautelemente. Die synthetisierten Abtastwertfolgen gelangen über einen Digital-Analog-Wandler D/A und einen regelbaren Verstärker entweder direkt über einen Lautsprecher oder über eine Niederfrequenzbuchse und eine nicht dargestellte Sprachübertragungsleitung und am entfernten Ort über einen Lautsprecher als Schallwellen zur Wieder-, besser Ausgabe.As shown in FIG. 1, a speech synthesis system in embodiments according to the invention essentially consists of two details, that for the transcription and that for the synthesis itself. You have to enter either a character string, which is done via an alphanumeric keyboard or via a V24 interface can, or a sound string. Although experienced or trained users can also enter the sound strings directly using suitable keyboards, in most applications, if the transcription is not used, the synthesis unit will then receive the corresponding input signals from a remote location via a data line and the V24 interface. Of course, other interface conditions can also be complied with and implemented within the scope of professional skills. The transcription unit uses prepared rules, summarized under the term grammar, the synthesis unit essentially uses the stored sound elements. The synthesized sample sequences arrive via a digital-to-analog converter D / A and a controllable amplifier either directly via a loudspeaker or via a low-frequency socket and a voice transmission line, not shown, and at a remote location via a loudspeaker as sound waves for reproduction, better output.

Das in Fig. 2 dargestellte Blockschaltbild gibt insbesondere im Grössenvergleich der einzelnen Blöcke den Speicherplatzbedarf mit den Anteilen wieder, die für die Synthese und die Transkription insgesamt benötigt werden. Das System ist auf Basis eines Mikroprozessors IlP konzipiert. Für die Eingabe der Schriftzeichenfolge ist eine alphanumerische Tastatur, für die Ausgabe der als Sprache wahrnehmbaren Schallwellen ein üblicher elektro-akustischer Wandler vorgesehen. Für die Transkription arbeitet der Mikroprozessor µP mit dem Transkriptionsprogramm TP und der Transkriptionsgrammatik TG, bei der Sprachsynthese mit dem Syntheseprogramm SP und der Synthesematrix SM, wobei die benötigten Lautelemente je nach Bedarf aus dem Lautelementespeicher SE entnommen, in die im Arbeitsspeicher RAM abgelegte, aus der betreffenden Lautzeichenfolge abgeleitete Gestalt gebracht, in der betreffenden Anzahl und Reihenfolge verkettet und an den Digital-Analog-Wandler (s. Fig. 1, D/A) übergeben werden. Eine Lautstärkeregelung innerhalb der synthetisierten Wörter und Sätze erfolgt, ebenfalls vom Mikroprozessor µP gesteuert und entsprechend dafür eingegebener Befehle, im regelbaren Niederfrequenzverstärker (s. Fig. 1) vor der Abstrahlung der Schallwellen bzw. der Übertragung des Niederfrequenzsignals.The block diagram shown in FIG. 2 shows, in particular in the size comparison of the individual blocks, the storage space requirement with the proportions that are required for the synthesis and the transcription as a whole. The system is designed on the basis of a microprocessor IlP. An alphanumeric keyboard is provided for entering the character string, and a conventional electro-acoustic converter is provided for outputting the sound waves perceptible as speech. For the transcription, the microprocessor µP works with the transcription program TP and the transcription grammar TG, for speech synthesis with the synthesis program SP and the synthesis matrix SM, the required sound elements being taken from the sound element memory SE as required and into the RAM stored in the working memory from which Derived shape of the relevant sound string, chained in the relevant number and order and passed to the digital-to-analog converter (see FIG. 1, D / A). A volume control within the synthesized words and sentences takes place, also controlled by the microprocessor µP and according to commands entered therefor, in the controllable low-frequency amplifier (see FIG. 1) before the radiation of the sound waves or the transmission of the low-frequency signal.

Die in Fig. 3 dargestellte Lage der drei ersten Formanten für neun verschiedene Laute lässt erkennen, dass insbesondere der erste und der zweite Formant von erheblicher Bedeutung für die Lautbildung sind. Aufgrund der linearen Teilung der Frequenzskala darf jedoch nicht übersehen werden, dass auch beim dritten Formanten der Bereich etwa einer halben Oktave beansprucht wird.The position of the three first formants for nine different sounds shown in FIG. 3 shows that the first and the second formants in particular are of considerable importance for the formation of sounds. Due to the linear division of the frequency scale, it should not be overlooked that the third formant also occupies the area of about half an octave.

In Fig. 4 ist für drei Laute die Lage der Formanten dargestellt. Es zeigt sich, dass an den Übergängen teilweise recht erhebliche Sprünge auftreten, die als äusserst unangenehm wahrgenommen werden würden. Hierbei handelt es sich jedoch um bekannte Erscheinungen, die lediglich deshalb nicht unerwähnt bleiben sollen, um die Vielschichtigkeit der Probleme anzudeuten, die bei einem Sprachsynthesesystem zu beachten sind.4 shows the position of the formants for three sounds. It can be seen that there are sometimes considerable jumps at the transitions that would be perceived as extremely unpleasant. However, these are known phenomena that should not be left unmentioned only to indicate the complexity of the problems that have to be considered in a speech synthesis system.

Das in Fig. 5 dargestellte Zeitsignal des Wortes «Asche» soll die Möglichkeit der Reduktion der Länge von Lautelementen durch Segmentierung in quasistationäre Bereiche S und Übergangsbereiche Ü veranschaulichen. Innerhalb der quasistationären Bereiche S sind Sprachgrundfrequenzperioden P zu erkennen, die den signifikanten Bereich eines Lautes bilden und nur in dieser Länge als Element für die Synthese abgespeichert zu werden brauchen. Ähnliche Grundfrequenzperioden sind auch bei Übergangsbereichen zu erkennen und reichen als Synthesebaustein ebenfalls aus.The time signal of the word "ash" shown in FIG. 5 is intended to illustrate the possibility of reducing the length of sound elements by segmentation into quasi-stationary areas S and transition areas U. Within the quasi-stationary areas S, fundamental speech frequency periods P can be recognized, which form the significant area of a sound and are only stored in this length as an element for the synthesis need to be. Similar fundamental frequency periods can also be seen in transition areas and are also sufficient as a synthesis module.

Die in den Fig. 6a, 6b und 6c angegebenen Möglichkeiten für zeitliche Invertierung von Übergängen (Fig. 6a), für Vokal umwandlungen (Fig. 6b) und für Konsonantenumwandlung (Fig. 6c) sprechen für sich und bedürfen deshalb hier keiner näheren Erläuterung. Allerdings ist, wie weiter oben bereits erwähnt, darauf hinzuweisen, dass eine Verkürzung oder Verlängerung der Lautdauer eben nicht nur eine Verlagerung der Tonhöhe mit sich bringt, sondern insbesondere eine Lautumwandlung bewirkt. Von den 16 in Fig. 6c angegebenen Lauten brauchen übrigens nur die in jeder Zeile an erster Stelle angegebenen gespeichert zu werden. Dies sind zwar die Laute mit den jeweils meisten benötigten Abtastwerten, doch wird dadurch Speicherplatz von gut 60% gegenüber einer Speicherung aller dieser Laute eingespart.The options given in FIGS. 6a, 6b and 6c for temporal inversion of transitions (FIG. 6a), for vowel conversions (FIG. 6b) and for consonant conversions (FIG. 6c) speak for themselves and therefore do not require any further explanation here. However, as already mentioned above, it should be pointed out that a shortening or lengthening of the duration of the sound not only brings about a shift in the pitch, but in particular causes a sound conversion. Incidentally, of the 16 sounds shown in FIG. 6c, only those given in the first place in each line need to be stored. Although these are the sounds with the most required sample values in each case, this saves storage space of a good 60% compared to storing all of these sounds.

Die in Fig. 7 dargestellte Veränderung des Höreindrucks gibt an, dass 20 Testpersonen eine Konsonantenumwandlung feststellen sollten (in Klammern), die - bis auf zwei Personen bei der Verschiebung des Anfangspunktes auf 160 ms - den angegebenen Höreindruck bei den einzelnen Umwandlungsformen bestätigen.The change in the auditory impression shown in FIG. 7 indicates that 20 test persons should determine a consonant conversion (in brackets) which - apart from two people when the starting point is shifted to 160 ms - confirm the stated auditory impression in the individual conversion forms.

Die Fig. 8a, 8b und 8c zeigen an einem Beispiel, auf welche Weise die bei der Erfindung wesentliche Variation der Tonhöhe ermöglicht wird. In n Fig. 8a ist eine Grundfrequenzperiode des Lautes /a/ aufgetragen. Zur Modifizierung wird zunächst von einem Prädiktionsfehlerfilter das dazugehörige Fehlersignal (Fig. 8b) erzeugt. Daraus ist zu erkennen, dass diskrete Stellen angegeben werden können, an denen Modifizierungen vorzunehmen sind, ohne den Lautcharakter, jedoch seine Tonhöhe zu verändern. In Fig. 8c ist die gegenüber Fig. 8a um etwa 20% gekürzte Periode des Lautes /a/ angegeben. Es zeigt sich im Vergleich der Kurvenverläufe von Fig. 8a und 8c, dass eine Verkürzung der Periode, d. h. eine Erhöhung der Tonhöhe, das eigentliche charakteristische Bild nicht verändert, der Laut /a/ als solcher also erhalten bleibt und - wie gewünscht - höher klingt.8a, 8b and 8c show an example of the manner in which the pitch variation which is essential in the invention is made possible. A fundamental frequency period of the sound / a / is plotted in FIG. 8a. For modification, the associated error signal (FIG. 8b) is first generated by a prediction error filter. From this it can be seen that discrete places can be specified where modifications have to be made without changing the sound character but its pitch. 8c shows the period of the sound / a / shortened by approximately 20% compared to FIG. 8a. It can be seen in the comparison of the curve profiles of FIGS. 8a and 8c that a shortening of the period, i.e. H. an increase in pitch, the actual characteristic image does not change, the sound / a / is therefore retained as such and - as desired - sounds higher.

In der Fig. 9 ist ein Beispiel - auszugsweise - angegeben, in welcher Reihenfolge (lfd. Nr.) in einem gespeicherten Element eines in der Tonhöhe veränderbaren, stimmhaften Übergangs- oder Einzellautes wahre Abtastwerte WAW, auslassbare Abtastwerte DAW, zusätzliche Abtastwerte ZAW und Markierwörter MAW aufeinanderfolgen. Im Normalfall, d. h. wenn keine Tonhöhenvariation erfolgen soll, werden nur die wahren Abtastwerte WAW verwendet. Für eine Absenkung der Tonhöhe werden zusätzliche Abtastwerte ZAW mit verwendet, für eine Erhöhung hingegen gegenüber dem Normalfall auslassbare Abtastwerte DAW weggelassen. Mit den Markierwörtern werden nicht nur die zusätzlichen ZAW bzw. auslassbaren Abtastwerte DAW lokalisiert, sondern vorteilhaft auch deren Priorität für Tonhöhenänderungen bestimmt.FIG. 9 shows an example - in excerpts - of the order (serial number) in a stored element of a voiced transitional or individual sound that can be changed in pitch, true samples WAW, skipped samples DAW, additional samples ZAW and marker words MAW follow one another. Usually, H. if no pitch variation is to take place, only the true samples WAW are used. Additional samples ZAW are used to lower the pitch, but samples DAW that can be omitted compared to the normal case are omitted for an increase. The marker words not only localize the additional ZAW or skewable samples DAW, but also advantageously determine their priority for pitch changes.

Der in Fig. 10 dargestellte Block soll das Verhältnis des Speicherplatzbedarfs veranschaulichen, der für die Synthesebausteine, die Elemente der Einzel- und der Übergangslaute, benötigt wird. Dabei handelt es sich in erster Linie um die wahren Abtastwerte WAW der Elemente, ausserdem aber auch um die Markierwörter MAW und die rechnerisch bestimmten zusätzlichen Abtastwerte ZAW bei den stimmhaften Einzellauten bzw. den stimmhaften Bereichen von Übergangslauten. Die gestrichelte Linie zwischen den Bereichen für die Einzellaut- und die Übergangslaut-Elemente zeigt eine Aufteilung etwa im Verhältnis 4: 6 bis 5:6.The block shown in FIG. 10 is intended to illustrate the ratio of the storage space requirement which is required for the synthesis building blocks, the elements of the individual and the transition sounds. These are primarily the true sample values WAW of the elements, but also also the marker words MAW and the computationally determined additional sample values ZAW for the voiced individual sounds or the voiced areas of transition sounds. The dashed line between the areas for the individual sound and the transition sound elements shows a distribution roughly in the ratio 4: 6 to 5: 6.

Die Fig. 11, in der der Ablauf einer Transkription dargestellt ist, spricht für sich, soll aber anhand eines Beispiels, die Transkription des Wortes «verwischend» näher erläutert werden.11, in which the sequence of a transcription is shown, speaks for itself, but is to be explained in more detail using an example, the transcription of the word “blurring”.

Bei der lexikalischen Verarbeitung ergibt sich, dass es sich um keine Ausnahme handelt. Die Wortanalyse erfolgt also nach:

  • Präfix: «ver»
  • Stamm: «wisch»
  • Suffix: «en»
  • Endung: «d»
The lexical processing shows that it is no exception. The word analysis is done according to:
  • Prefix: «ver»
  • Trunk: «wipe»
  • Suffix: «en»
  • Extension: «d»

Bei der Transkription des Stammes nach Regeln ist festzustellen, ob die Aussprache der Symbolfolge «sch» als ein Laut /sch/ (wie in: Schule) oder als zwei getrennte Laute /s/ und /ch/ erfolgen muss. Dazu gelten folgende Regeln aus dem Katalog: Befinden sich vor «sch» zwei Vokale oder ein Umlaut, gilt zunächst die zweite Alternative, also zwei getrennt Laute /s/ und /ch/ (Beispiel: Röschen/Roeschen). Ist dabei jedoch der zweite Vokal ein «u», gilt dennoch die erste Alternative, d.h. der Einzellaut /sch/ (Beispiel: tauschen).When transcribing the stem according to rules, it must be determined whether the pronunciation of the symbol sequence «sch» must be as a sound / sh / (as in: school) or as two separate sounds / s / and / ch /. The following rules from the catalog apply: If there are two vowels or an umlaut before “sch”, the second alternative applies first, ie two separate sounds / s / and / ch / (example: Röschen / Roeschen). However, if the second vowel is a "u", the first alternative still applies, i.e. the individual sound / sh / (example: swap).

Befinden sich vor «schen» drei Vokale, wobei ein Umlaut wiederum als zwei Vokale angesehen werden, gilt wieder die zweite Alternative, also zwei getrennte Laute /s/ und /ch/(Beispiel: Häuschen/Haeuschen). Ausnahmen hiervon sind nur zwei Wörter: täuschen/taeuschen und Geräuschen/Geraeuschen.If there are three "vowels" before "um", whereby an umlaut is again considered to be two vowels, the second alternative applies again, ie two separate sounds / s / and / ch / (example: Häuschen / Haeuschen). Exceptions to this are just two words: deceive and deceive.

Ein weiteres Beispiel aus dem umfangreichen Regelkatalog betrifft den Laut /ch/. Dabei werden unterschieden:

Figure imgb0005
wobei hier jeweils nur einige Lautbeispiele aufgeführt sind.Another example from the extensive rule catalog concerns the sound / ch /. A distinction is made between:
Figure imgb0005
only a few sound examples are given here.

Die Fig. 12 zeigt den Signalverlauf - monoton - des synthetisierten Wortes /Tasche/. (Eine den Signalverlauf, die Melodik, Rhythmik und Dynamik enthaltende Darstellung wäre, soweit mit gebräuchlichen Mitteln überhaupt möglich, zweifellos unübersichtlich). Für das /t/ wurde ein gekürztes /s/ verwendet. Der Übergang /ta/ entstammt dem Doppellaut /sa/. Für das /a/ wurden einer Periode 8 Wiederholungen angefügt. Der Übergang /asch/ wurde dem Doppellaut /sa/, zeitlich invertiert, entnommen. Beim /sch/ handelt es sich um einen stimmlosen Einzellaut. Der Übergang / scha/entstammtdem Doppellaut /sa/. Schliesslich wurde für das /a/ am Ende zunächst eine Periode 6mal und sodann noch 6mal, jedoch mit dem Ausschnitt einer Sinusfunktion bewertet, wiederholt.12 shows the signal curve - monotonous - of the synthesized word / pocket /. (A representation containing the waveform, the melody, rhythm and dynamics would undoubtedly be confusing, as far as is possible with the usual means). A shortened / s / was used for the / t /. The transition / ta / comes from the double sound / sa /. For the / a / 8 repetitions were added to a period. The transition / asch / became the double sound / sa /, in time inverted, taken. The / sh / is an unvoiced individual sound. The transition / scha / stems from the double sound / sa /. Finally, for the / a / at the end a period was repeated 6 times and then 6 times, but evaluated with a section of a sine function.

Claims (14)

1. A method for the synthesis of speech with an unlimited vocabulary in the time domain from sound elements which are obtained from natural speech samples and are coded with low redundancy in digital form, stored and also reduced in length, in each case to the significant area of the relevant time signal typical of the sound, and in number, by utilizing related sounds which are mutually transfomable into each other, having regard to the necessary storage space requirement, these sound elements being linked, with respect to the form, number and sequence required, into digital signal requences on the basis of input commands and of predetermined rules of linkage for the purposes of speech synthesis, these signal sequences being used to generate, by means of digital/analog conversion and controllable amplification, sound waves which can be perceived as speech, characterized in:
providing a total of about 100 sound elements, that is to say
- about 50 elements for transitions sounds with an average of 240 samples each for an output frequency of 8 kHz, and
- about 40 elements for phonemes with an average of 500 samples for unvoiced and 140 samples for voiced phonemes each and an output frequency of 8 kHz,

and enabling the pitch to be varied for reproduction, in the case of the elements for the voiced transition sounds and phonemes, by omitting or using at least once, as a result of appropriate input commands, those samples and/or values which are preset as suitable by means of marker words at discrete positions in the time signal, depending on requirement, when the digital signal sequences are being formed.
2. A method as claimed in claim 1, characterized in providing within the digitally stored elements for the voiced phonemes - with the average of 140 samples for phonemes and 240 samples for transistions sounds - additional values for the purpose of varying the pitch.
3. A method as claimed in claim 2, characterized in that an additional value occupies an interpolated value between adjacent true sampled values.
4. A method as claimed in one of claims 1 to 3, characterized in that marker words are provided preferably at low-slope positions in the time signal.
5. A method as claimed in claim 4, characterized in that marker words at low-slope positions in the time signal are given a higher priority for pitch variation purposes that those at places with a greater slope.
6. A method as claimed in one of claims 1 to 4, characterized in that marker words have digital patterns reserved for them which do not occur in the samples.
7. A method as claimed in claim 6, characterized in that the patterns with the highest positions, for example, with 8-bit words, patterns 246, 247, ... 255 are reserved for marker words.
8. A method as claimed in one of claims 1 to 7, characterized in that during the pauses between words, the shape of the sound elements needed for linking the next successive word is determined by means of the input commands.
9. A method as claimed in one of claims 1 to 8, characterized in that sequences or orthographical characters entered via an alphanumeric keyboard are being automatically transcribed, in an process step preceding the synthesis process proper, into a sequence of phonetic characters which are suitable for use as the input commands.
10. A method as claimed in claim 9, characterized in that firstly exceptions and foreign words, complied lexicographically, are processed, and besides this the vocabulary is subjected to prefix processing, taking into account exceptions, separating off endings and suffix processing, also taking into account exceptions, and the stems of the words are transcribed in accordance with rules stored catalog-fashion.
11. A circuit arrangement designed for carrying out the process according to one of claims 1 to 10, characterized by:
a microprocessor (pP) which is connected to read-only memories (ROM) with a storage capacity of a total of 32 kBytes an to a 1 kByte random-access memory (RAM), and by
an electro-acoustical conversion device, known in itself and consisting of a decompanding-type digital/analog converter, an audio-frequency amplifier and a loudspeaker.
12. A circuit arrangement as claimed in claim 11, characterized in that the capacity of read-only memories (ROM) is distributed in:
1.5 kBytes for the transcription program,
6 kBytes for the transcription grammar,
1.5 kBytes for the synthesis program,
1 kBytes for the synthesis matrix and
22 kBytes for the sound elements.
13. A circuit arrangement as claimed in claim 11 or 12, characterized in an input at which a V24 (RS 232) interface is provided.
14. A circuit arrangement as claimed in one of claims 11 to 13, characterized by an output at which an audio-frequency jack is provided.
EP82730011A 1981-02-11 1982-02-11 Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same Expired EP0058130B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AT82730011T ATE20784T1 (en) 1981-02-11 1982-02-11 METHOD FOR SYNTHESIS OF INFINITE VOCABULARY SPEECH AND CIRCUIT ARRANGEMENT FOR CARRYING OUT THE METHOD.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE3105518 1981-02-11
DE19813105518 DE3105518A1 (en) 1981-02-11 1981-02-11 METHOD FOR SYNTHESIS OF LANGUAGE WITH UNLIMITED VOCUS, AND CIRCUIT ARRANGEMENT FOR IMPLEMENTING THE METHOD

Publications (3)

Publication Number Publication Date
EP0058130A2 EP0058130A2 (en) 1982-08-18
EP0058130A3 EP0058130A3 (en) 1982-09-08
EP0058130B1 true EP0058130B1 (en) 1986-07-16

Family

ID=6124949

Family Applications (1)

Application Number Title Priority Date Filing Date
EP82730011A Expired EP0058130B1 (en) 1981-02-11 1982-02-11 Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same

Country Status (4)

Country Link
EP (1) EP0058130B1 (en)
AT (1) ATE20784T1 (en)
CA (1) CA1172365A (en)
DE (2) DE3105518A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3513243A1 (en) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Method for speech transmission and speech storage

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5972494A (en) * 1982-10-19 1984-04-24 株式会社東芝 Rule snthesization system
JPH0642158B2 (en) * 1983-11-01 1994-06-01 日本電気株式会社 Speech synthesizer
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
DE3530856A1 (en) * 1985-08-29 1987-03-05 Telefonbau & Normalzeit Gmbh Circuit arrangement for audible operating help in telecommunications terminals, in particular telephone terminals
JPH0833744B2 (en) * 1986-01-09 1996-03-29 株式会社東芝 Speech synthesizer
FR2655759A1 (en) * 1989-12-13 1991-06-14 Hodys Edgar Electronic device for voice synthesis without reference vocabulary
DE19860133C2 (en) * 1998-12-17 2001-11-22 Cortologic Ag Method and device for speech compression
CN118016079B (en) * 2024-04-07 2024-06-07 广州市艾索技术有限公司 Intelligent voice transcription method and system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5331323B2 (en) * 1972-11-13 1978-09-01

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3513243A1 (en) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Method for speech transmission and speech storage

Also Published As

Publication number Publication date
EP0058130A2 (en) 1982-08-18
EP0058130A3 (en) 1982-09-08
DE3271965D1 (en) 1986-08-21
ATE20784T1 (en) 1986-08-15
CA1172365A (en) 1984-08-07
DE3105518A1 (en) 1982-08-19

Similar Documents

Publication Publication Date Title
DE69031165T2 (en) SYSTEM AND METHOD FOR TEXT-LANGUAGE IMPLEMENTATION WITH THE CONTEXT-DEPENDENT VOCALALLOPHONE
EP0886853B1 (en) Microsegment-based speech-synthesis process
DE69028072T2 (en) Method and device for speech synthesis
DE69909716T2 (en) Formant speech synthesizer using concatenation of half-syllables with independent cross-fading in the filter coefficient and source range
DE60112512T2 (en) Coding of expression in speech synthesis
DE69821673T2 (en) Method and apparatus for editing synthetic voice messages, and storage means with the method
DE69718284T2 (en) Speech synthesis system and waveform database with reduced redundancy
DE69719654T2 (en) Prosody databases for speech synthesis containing fundamental frequency patterns
DE69719270T2 (en) Speech synthesis using auxiliary information
AT400646B (en) VOICE SEGMENT ENCODING AND TOTAL LAYER CONTROL METHOD FOR VOICE SYNTHESIS SYSTEMS AND SYNTHESIS DEVICE
DE60035001T2 (en) Speech synthesis with prosody patterns
DE68919637T2 (en) Method and device for speech synthesis by covering and summing waveforms.
DE60118874T2 (en) Prosody pattern comparison for text-to-speech systems
DD143970A1 (en) METHOD AND ARRANGEMENT FOR SYNTHESIS OF LANGUAGE
DE60216651T2 (en) Speech synthesis device
DE112004000187T5 (en) Method and apparatus of prosodic simulation synthesis
EP1105867B1 (en) Method and device for the concatenation of audiosegments, taking into account coarticulation
EP1058235B1 (en) Reproduction method for voice controlled systems with text based speech synthesis
EP0058130B1 (en) Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same
DE2519483A1 (en) Extra compact coded digital storage - is for short word list for synthesized speech read-out from a calculator
DE60205421T2 (en) Method and apparatus for speech synthesis
EP1344211B1 (en) Device and method for differentiated speech output
WO2000016310A1 (en) Device and method for digital voice processing
DE4441906C2 (en) Arrangement and method for speech synthesis
EP1554715B1 (en) Method for computer-aided speech synthesis of a stored electronic text into an analog speech signal, speech synthesis device and telecommunication apparatus

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Designated state(s): AT CH DE FR GB

AK Designated contracting states

Designated state(s): AT CH DE FR GB

17P Request for examination filed

Effective date: 19830210

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: GROSSMANN, EBERHARD, DR.-ING.

RIN1 Information on inventor provided before grant (corrected)

Inventor name: GROSSMANN, EBERHARD, DR.-ING.

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT CH DE FR GB LI

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: THE PATENT HAS BEEN ANNULLED BY A DECISION OF A NATIONAL AUTHORITY

Effective date: 19860716

REF Corresponds to:

Ref document number: 20784

Country of ref document: AT

Date of ref document: 19860815

Kind code of ref document: T

REF Corresponds to:

Ref document number: 3271965

Country of ref document: DE

Date of ref document: 19860821

EN Fr: translation not filed
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Effective date: 19870211

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

26N No opposition filed
GBPC Gb: european patent ceased through non-payment of renewal fee
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Effective date: 19881121

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 19900323

Year of fee payment: 9

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 19900430

Year of fee payment: 9

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Effective date: 19910228

Ref country code: CH

Effective date: 19910228

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Effective date: 19911101