EP0058130A2 - Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens - Google Patents

Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens Download PDF

Info

Publication number
EP0058130A2
EP0058130A2 EP82730011A EP82730011A EP0058130A2 EP 0058130 A2 EP0058130 A2 EP 0058130A2 EP 82730011 A EP82730011 A EP 82730011A EP 82730011 A EP82730011 A EP 82730011A EP 0058130 A2 EP0058130 A2 EP 0058130A2
Authority
EP
European Patent Office
Prior art keywords
samples
sound
elements
sounds
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP82730011A
Other languages
English (en)
French (fr)
Other versions
EP0058130B1 (de
EP0058130A3 (en
Inventor
Eberhard Dr.-Ing. Grossmann
Original Assignee
Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI filed Critical Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Priority to AT82730011T priority Critical patent/ATE20784T1/de
Publication of EP0058130A2 publication Critical patent/EP0058130A2/de
Publication of EP0058130A3 publication Critical patent/EP0058130A3/de
Application granted granted Critical
Publication of EP0058130B1 publication Critical patent/EP0058130B1/de
Expired legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • the invention relates to a method for the synthesis of speech with unlimited vocabulary in the time domain from sound elements, which are obtained from natural speech samples and coded in digital form, with low redundancy, stored and also in view of the required storage space in length in each case on the significant range of relevant sound-typical time signal and the number are reduced by utilizing mutually convertible related sounds, for speech synthesis these sound elements are chained in the required form, number and order to form digital signal sequences based on input commands and predetermined linking rules, from which by means of digital-analog Conversion and controllable amplification as speech-perceptible sound waves are generated, as well as on a circuit arrangement for performing the method.
  • Speech synthesis is understood to mean the conversion of a text present as a symbol sequence into the equivalent acoustic signal by means of technical equipment. It is of fundamental importance that between the input of the symbol sequence in the apparatus and the output of the equivalent acoustic signal, all processes take place immediately, without the interposition of human mind powers. The precisely determined individual technical measures follow the planned use of predictable and controllable natural forces.
  • the evaluation criteria for synthetic language are intelligibility and naturalness.
  • the standards for this are, even if e.g. in terms of intelligibility ascertainable from an objective point of view, subjective nature. Nevertheless, there are circumstances that everyone can immediately use for the assessment. These are the course of the basic pitch (pitch frequency), the speaking rhythm and the course of the intensity.
  • the individual sounds merge into one another in the course of the natural language signal. They are characterized by several sound generation frequencies (formants). These sound generation frequencies are independent of the fundamental pitch, i.e. regardless of the speech height.
  • the speech synthesis system known from DE-OS 20 16 572 takes into account the problems at the transitions between successive phonemes in particular with regard to intelligibility. Since the formant frequencies - taking into account the three main formants is sufficient - to the Increase, decrease or remain transitions, there are nine versions for every phoneme to be stored. In order not to have to increase the storage capacity by practically a further power of ten, the solution in this known prior art aims to get by with a stored version and to modify this representation according to the requirements during the synthesis process. In addition, only the significant range of the individual sounds is saved, which, for example with a / s / sound, only has to be 10% of the total duration and can therefore be reproduced exactly enough and understandably by repeating ten times.
  • the stored sections should start with an oscillation zero crossing.
  • the suitability at the transition to other phonemes must also be selected in a special way - a subjective test. With this compromise, abrupt transitions can be avoided or at least reduced to a small extent, but on the other hand, completely bumpless transitions must be avoided.
  • the language generator known from DE-OS 23 06 816 is based on the task in the preparation of phonetic segments to create a comprehensive pitch period control range of the synthesized sounds, which should benefit the improvement of naturalness and intelligibility.
  • the solution given is to pick out sound waveforms from natural language for voiced sounds with a defined periodicity of each pitch length and to add a waveform to each such waveform at the end area that was obtained by a rough calculation for the waveform of the respective sound. Sound waveforms of unvoiced sounds and the transitions between consonants and vowels that have an undefined periodicity should be divided into fixed lengths.
  • the pitch period can be changed, lengthened or shortened, and thus the basic pitch can be lowered or raised accordingly, if samples are used or omitted at these discrete locations, without the sound character changing thereby.
  • samples approximately 30 within such a significant area, special “samples” are used, the marker words, which allow these locations to be found at any time.
  • the marker words themselves are omitted when the elements are linked to form the digital signal sequences.
  • 60 samples for example those adjacent to a marker word, depending on whether they are used or not, permit a practically continuous variation in the pitch, that is to say a large number of melody lines. In particular, this also enables the fundamental speech frequency curves at the transitions to the following sounds to be designed continuously, that is, to avoid bumps.
  • transitions - with the exception of combinations of plosives - can be inverted in time; by lengthening or shortening the length of time, vowel conversions take place; by shortening the length of time, there are also consonant conversions.
  • the required sound elements are made up of almost 60 elements for transitional sounds, 27 elements for voiced individual sounds and 13 elements for unvoiced individual sounds. Further details follow in connection with the description of the figures.
  • Particularly preferred embodiments of the invention consist in providing additional samples in the digitally stored elements for the voiced individual sounds for the purpose of pitch variation. This measure leads to a slight increase of approx. 1000 bytes of the required storage space, but allows more extensive variations in the melody.
  • an additional sample value has an interpolated value lying between the adjacent true sample values. In this way, any discontinuities that would occur between the true samples that are definitely needed and used can be reduced or avoided.
  • Marking words should preferably be provided at points with a slight slope in the time signal.
  • An associated error signal has very small deflections at such locations and thus allows the desired discrete locations to be determined, localized and marked in a simple manner.
  • marker words are preferred in the embodiments of the invention.
  • a marker word and a true or additional sample can have digital patterns of the same stock.
  • marker words are to be reserved for digital words which do not occur in the sample values.
  • embodiments of the invention it is of particular importance for embodiments of the invention to be able to determine the shape of the sound elements required for the concatenation of the next word following the pauses on the basis of the input commands. This avoids discontinuities in the output of the individual words.
  • the duration for determining the shape of the required synthesis building blocks, even for very long words, is in the range of a few milliseconds. Determining the shape is to be understood here: searching for the relevant sound element, possibly inverting in time, lengthening or shortening the duration of the sound and specifying the number of repetitions of the stored sound element.
  • a further essential advantage of the invention is that sequences of conventional characters entered via an alphanumeric keyboard can be automatically transcribed into a sequence of phonetic characters suitable as input commands in a method step preceding the actual synthesis process. As a result, even inexperienced or untrained users will find it much easier to use, or even opened up. Of course, there is also the option of entering phonetic characters or the appropriate input commands directly.
  • a circuit arrangement for carrying out the method according to the invention can be constructed with a microprocessor, to which the read-only memory with a total storage capacity of 32 kbytes and a working memory for 1 kbyte are to be connected, and also has a decomposing digital-to-analog converter and a volume-controllable low-frequency amplifier and a loudspeaker as an electro-acoustic transducer device.
  • Such circuit elements and components are common on the market. The concept but also enables extensive integration. Decomparing before the digital-to-analog conversion naturally means that previously the stored data has been subjected to a coding which reduces the data rate.
  • the logarithmic PCM and the adaptive delta PCM are common and increasingly reducing methods in the order given. Relevant components are known from common voice transmission systems and can also be used without further ado in embodiments of the invention.
  • the data input i.e. the writing or phonetic symbol sequences
  • the output of the acoustic signals can take place both directly on the device and at remote locations.
  • a V24 interface or a low-frequency socket can be provided at the output.
  • a speech synthesis system in embodiments according to the invention essentially consists of two units, the one for the transcription and the one for the synthesis itself. Either a character string is to be entered, which is done via an alphanumeric keyboard or via a V24 interface can, or a sound string. Although experienced or trained users can also enter the sound strings directly using suitable keyboards, in most applications, if the transcription is not used, the synthesis unit will then receive the corresponding input signals from a remote location via a data line and the V24 interface. Of course, other interface conditions can also be complied with and implemented within the scope of professional skills.
  • the transcription unit uses prepared rules, summarized under the term grammar, the synthesis unit essentially uses the stored sound elements.
  • the synthesized Sampling value sequences arrive via a digital-to-analog converter D / A and a controllable amplifier either directly via a loudspeaker or via a low-frequency socket and a voice transmission line, not shown, and at a remote location via a loudspeaker as sound waves for reproduction, better output,
  • the block diagram shown in FIG. 2 shows, in particular in the size comparison of the individual blocks, the storage space requirement with the proportions that are required for the synthesis and the transcription as a whole.
  • the system is designed on the basis of a microprocessor pP.
  • An alphanumeric keyboard is provided for entering the character strings, and a conventional electro-acoustic converter is provided for outputting the sound waves perceptible as speech.
  • the microprocessor pP works with the transcription program TP and the transcription grammar TG, for speech synthesis with the synthesis program SP and the synthesis matrix SM, the required sound elements being taken from the sound element memory SE as required and into the RAM stored in the working memory from which Derived shape of the relevant sound string, chained in the relevant number and order and passed to the digital-to-analog converter (see FIG. 1, D / A).
  • a volume control within the synthesized words and sentences takes place, also controlled by the microprocessor pP and according to commands entered therefor, in the controllable low-frequency amplifier (see FIG. 1) before the radiation of the sound waves or the transmission of the low-frequency signal.
  • the position of the first three formants for nine different sounds shown in FIG. 3 shows that the first and the second formants in particular are of considerable importance for the formation of sounds. Due to the linear division of the frequency scale, it should not be overlooked that in the third formant, the range is about half an octave.
  • FIGS. 6a, 6b and 6c for temporal inversion of transitions (FIG. 6a), for vowel conversion (FIG. 6b) and for consonant conversion (FIG. 6c) speak for themselves and therefore do not require any further explanation here.
  • shortening or lengthening the duration of the sound not only brings about a shift in the pitch, but in particular causes a sound conversion.
  • the 16 sounds indicated in FIG. 6 c only those given in the first place in each line need to be stored. Although these are the sounds with the most required sample values in each case, this saves storage space of a good 60% compared to storing all of these sounds.
  • the change in the auditory impression shown in FIG. 7 indicates that 20 test persons should find a consonant conversion (in brackets) which - apart from two persons when the starting point was shifted to 160 ms - confirmed the stated auditory impression in the individual conversion forms.
  • FIG. 8a, 8b and 8c show an example of the manner in which the pitch variation which is essential in the invention is made possible.
  • a basic frequency period of the sound / a / is plotted in FIG. 8a.
  • the associated error signal (FIG. 8b) is first generated by a prediction error filter. From this it can be seen that discrete places can be specified where modifications have to be made without changing the sound character but its pitch.
  • 8c shows the period of the sound / a / shortened by approximately 20% compared to FIG. 8a. It can be seen in the comparison of the curves of Figures 8a and 8c that a shortening of the period, i.e. an increase in pitch, the actual characteristic image does not change, the sound / a / is therefore retained as such and - as desired - sounds higher.
  • the block shown in FIG. 10 is intended to illustrate the ratio of the storage space requirement which is required for the synthesis building blocks, the elements of the individual and the transition sounds. These are primarily the true sample values WAW of the elements, but also the marking words MAW and the mathematically determined additional sample values ZAW for the voiced individual sounds or the voiced areas of transition sounds. The dashed line between the areas for the individual sound and the transition sound elements shows a division roughly in a ratio of 4: 6.
  • the lexical processing shows that it is no exception.
  • the word analysis is done according to:

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Unter Sprachsynthese ist die Umwandlung von Texten, die als Symbolfolgen eingegeben werden, in Folgen äquivalenter akustischer Signale zu verstehen. Bei der Erfindung geschieht dies für einen unbegrenzten Wortschatz und im Hinblick auf den erforderlichen Aufwand sowie auf die erzielbare Verständlichkeit und Natürlichkeit im Zeitbereich mit knapp 100 Lautelementen, die etwa 22 kByte Speicherplatz benötigen. Es sind etwa 40 Elemente für Einzellaute und etwa 50 Elemente für Übergangslaute vorgesehen. Elemente stimmhafter Einzel- und Übergangslaute weisen vorgegebene, spezielle Abtastwerte auf, die zur Tonhöhenänderung ausgelassen bzw. mindestens einmal verwendet werden können. Dabei bleibt der Lautcharakter erhalten. Als Eingangsbefehle benötigt das Sprachsynthesesystem an sich Lautschriftzeichen. Um die Anwendung zu erleichtern und sie auch ungeübten Benutzern zu eröffnen, ist ein Transkriptionssystem vorgesehen, das mit üblichen Schriftzeichen eingegebene Texte in einem der Synthese unmittelbar vorausgehenden Schritt selbsttätig in die erforderlichen Lautschriftzeichenfolgen umwandelt.

Description

  • Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
  • Die Erfindung bezieht sich auf ein Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz im Zeitbereich aus Lautelementen, die aus natürlichen Sprachproben gewonnen und in digitaler Form, redundanzarm kodiert, gespeichert und außerdem im Hinblick auf den erforderlichen Speicherplatzbedarf in der Länge jeweils auf den signifikanten Bereich des betreffenden lauttypischen Zeitsignals und in der Anzahl unter Ausnutzung sich gegenseitig ineinander überführbarer verwandter Laute reduziert sind, wobei zur Sprachsynthese diese Lautelemente aufgrund von Eingangsbefehlen und von vorgegebenen Verknüpfungsregeln in der erforderlichen Gestalt, Anzahl und Reihenfolge zu digitalen Signalfolgen verkettet werden, aus denen mittels Digital-Analog-Wandlung und steuerbarer Verstärkung als Sprache wahrnehmbare Schallwellen erzeugt werden, sowie auf eine Schaltungsanordnung zur Durchführung des Verfahrens.
  • Unter Sprachsynthese ist die Umwandlung eines als Symbolfolge vorliegenden Textes in das äquivalente akustische Signal mittels einer technischen Apparatur zu verstehen. Dabei ist es von grundlegender Bedeutung, daß zwischen der Eingabe der Symbolfolge in die Apparatur und der Ausgabe des äquivalenten akustischen Signals alle Abläufe unmittelbar, ohne Zwischenschaltung menschlicher Verstandeskräfte stattfinden. Die genau bestimmten technischen Einzelmaßnahmen folgen dabei einem planmäßigen Einsatz berechen- und beherrschbarer Naturkräfte.
  • Die Bewertungskriterien für synthetische Sprache sind die Verständlichkeit und die Natürlichkeit. Die Maßstäbe dafür sind, wenn auch z.B. bei der Verständlichkeit nach objektiven Gesichtspunkten feststellbar, subjektiver Natur. Dennoch gibt es Sachverhalte, die für die Beurteilung sofort von jedermann herangezogen werden. Dabei handelt es sich um den Verlauf der Grundtonhöhe (Pitchfrequenz), den Sprechrhythmus und um den Intensitätsverlauf. Beim Signalverlauf natürlicher Sprache gehen die Einzellaute ineinander über. Sie werden durch mehrere Lautbildungsfrequenzen (Formanten) charakterisiert. Diese Lautbildungsfrequenzen sind unabhängig von der Grundtonhöhe, d.h. unabhängig von der Sprechhöhe. Diese Sachverhalte wirken sich mehr oder weniger sowohl auf die Verständlichkeit als auch auf die Natürlichkeit aus. Während die Verständlichkeit bei bekannten Sprachsynthesesystemen bisher notgedrungen im Vordergrund stand, zielen die Bestrebungen neuerdings, nachdem eine ausreichende Verständlichkeit erreicht wurde, mehr und mehr auf Verbesserungen hinsichtlich der Natürlichkeit ab. Geringe Schwierigkeiten bestehen bei der Dynamik. Die relative Lautstärke läßt sich mit steuerbaren Verstärkern variieren. Auch die Lautdauer, und damit der Sprechrhythmus, läßt sich durch dynamische Steuerung der Wiederholanzahl der Einzellautelemente mit verhältnismäßig einfachen Mitteln verändern. Problematisch hingegen ist die Beherrschung der Melodik, da die Länge der Sprachgrundfrequenzperioden für die einzelnen Laute fest vorgegeben sind und eine einfache, proportionale Verlängerung oder Verkürzung von Sprachgrundfrequenzperioden eine entsprechende Verschiebung des Formantenfrequenzspektrums bedeutet, d.h. zur völlig unnatürlichen Lauten führt.
  • Verständlichkeit und Natürlichkeit synthetischer Sprache hängen andererseits auch von der Leistung ab, für das das betreffende System konzipiert ist. Selbstverständlich kann bei einem System mit begrenztem Wortschatz eine hervorragende Qualität der Sprache gewährleistet werden. Komplette Wörter oder gar längere Phrasen, zudem vielleicht noch von einem geschulten Sprecher dargeboten, können unter Erhaltung der natürlichen Melodik und Rhythmik gespeichert und auf Abruf wiedergegeben werden. Besteht die Zielsetzung für ein Sprachsynthesesystem hingegen darin, einen unbegrenzten Wortschatz zu erzeugen, muß auf kleinere Synthesebausteine, z.B. auf Laute zurückgegriffen werden. Dabei gehen auf jeden Fall Satz- und Wortdynamik sowie die Melodik zunächst verloren und sind bei der Synthese neu zu generieren. In welchem Umfang dies gelingt, ist für die Natürlichkeit synthetischer Sprache von wesentlicher Bedeutung.
  • Hier nun spielen die technischen Möglichkeiten und die wirtschaftlichen Gesichtspunkte eine ausschlaggebende Rolle. Eine Klassifizierung der Synthesesysteme bzw. deren Unterteilung nach dem Syntheseprinzip
    Figure imgb0001
    ermöglicht eine erste Abschätzung des erforderlichen Aufwandes für die Realisierung: Eine Wortsynthese, sowohl im Zeitbereich als auch im Parameterbereich, benötigt mit wachsendem Umfang des auszugebenden Vokalubars auch ein wachsendes Speichervolumen. Derartige Systeme sind also mit vernünftigem Aufwand nur für Systeme mit begrenztem Wortschatz geeignet. Auf der Lautsynthese beruhende Systeme ermöglichen die Ausgabe eines unbeschränkten Vokalubars und erfordern unterschiedlichen Aufwand, der in der folgenden Tabelle grob angedeutet ist.
    Figure imgb0002
  • In der technisch-wissenschaftlichen .und der Patentliteratur sind die verschiedenartigen Sprachsynthesesysteme in großer Zahl abgehandelt. So ist beispielsweise aus der DE-OS 30 06 339 ein Verfahren und eine Einrichtung zur Sprachsynthese bekannt, wobei zum Zwecke der Miniaturisierung eine Informations-Kompressionstechnik zur Anwendung kommen soll, die bei minimalem Verlust an Sprachverständlichkeit und Natürlichkeit eine Speicherung in einem einzigen integrierten LSI-Schaltungs-Chip möglich werden läßt. Die als Synthesebausteine abgespeicherten Phoneme (Einzellaute) sind bei der Synthese in ihrer aus dem Speicher abgerufenen Gestalt einer Veränderung oder Regulierung in bezug auf eine Anpassung des Tonhöhenintervalls, der Amplituden und der Zeitachse zu unterziehen, um sich der Qualität der natürlichen Sprache wieder anzunähern. Die angewendete Datenkompressionstechnik, die an einem Beispiel näher erläutert ist, führt dazu, daß für ein Wort (Beispiel: "nana") eine Folge weniger (im Beispiel: fünf) Phoneme abzuspeichern ist. Diese, an sich bekannten Tatsachen werden in dieser Vorveröffentlichung detailliert beschrieben. Es ist jedoch kein Hinweis darauf zu entnehmen, ob Möglichkeiten vorgesehen sind, einen unbegrenzten Wortschatz zu synthetisieren sowie Melodik und Rhythmik nach Belieben zu beeinflussen.
  • Das aus der DE-OS 20 16 572 bekannte Sprachsynthesesystem berücksichtigt insbesondere hinsichtlich der Verständlichkeit die Probleme an den Übergängen zwischen aufeinanderfolgenden Phonemen. Da die Formantfrequenzen - eine Berücksichtigung der drei Hauptformanten ist ausreichend - an den Übergängen zunehmen, abnehmen oder gleich bleiben können, ergeben sich rein rechnerisch für jedes abzuspeichernde Phonem neun Versionen. Um nicht die Speicherkapazität um praktisch eine weitere Zehnerpotenz erhöhen zu müssen, zielt die Lösung bei diesem bekannten Stand der Technik darauf ab, mit einer gespeicherten Version auszukommen und diese Darstellung den Erfordernissen entsprechend während des Synthesevorgangs zu modifizieren. Außerdem wird lediglich der signifikante Bereich der einzelnen Laute abgespeichert, der z.B. bei einem /s/-Laut nur 10 % der gesamten Lautdauer betragen muß und dementsprechend durch zehnmaliges Wiederholen genau genug und verständlich reproduzierbar ist. Zur Vermeidung von abrupten Übergängen zwischen zwei aufeinanderfolgenden Phonemen sollen die gespeicherten Abschnitte mit einem Schwingungs-Nulldurchgang beginnen. Für stimmhafte Phoneme ist außerdem die Eignung am Übergang zu anderen Phonemen in besonderer Weise - einer subjektiven Prüfung - auszuwählen. Durch diesen Kompromiß lassen sich zwar abrupte Übergänge vermeiden oder zumindest auf einen geringen Umfang reduzieren, wobei jedoch andererseits auf völlig stoßfreie übergänge verzichtet werden muß.
  • Dem aus der DE-OS 23 06 816 bekannten-Sprachgenerator liegt als Aufgabenstellung bei der Aufbereitung phonetischer Segmente zugrunde, einen umfassenden Tonhöhenperioden-Regelbereich der synthetisierten Laute zu schaffen, der der Verbesserung der Natürlichkeit und der Verständlichkeit zugute kommen soll. Als Lösung wird dazu angegeben, bei stimmhaften Lauten mit definierter Periodizität jeder Tonhöhenlänge Laut-Wellenformen aus natürlicher Sprache herauszugreifen und jeder solchen Wellenform am Endbereich eine Wellenform hinzuzufügen, die durch eine überschlägige Rechnung für die Wellenform des jeweiligen Lauts gewonnen wurde. Laut-Wellenformen von stimmlosen Lauten und die Übergänge zwischen Konsonanten und Vokalen, die eine undefinierte Periodizität aufweisen, sollen in feste Längen unterteilt werden. Die so gewonnenen Laut-Wellenformen stellen dann die Synthesebausteine dar. Eine Veränderung der Dauer einer Pitchperiode hat aber nicht nur eine entsprechende Tonhöhenveränderung, sondern - wie bereits oben schon erwähnt und auch nachfolgend noch näher erläutert wird - auch eine Lautverschiebung bzw. eine Verunreinigung zur Folge.
  • Bei der Erfindung wird von einem Stand der Technik ausgegangen, wie er aus der DE-OS 25 31 006 bekannt und im Oberbegriff des Anspruches 1 berücksichtigt ist. Die danach bei guter Verständlichkeit mögliche Reduktion führte bereits zu einem benötigten Speichervolumen für die Speicherung der Sprachdaten, unkodiert, im Zeitbereich von nur noch ca. l Mbit, entsprechend 125 kByte. Ziel der Erfindung ist nun, den Speicherplatzbedarf weiter zu verringern und insbesondere im Hinblick auf die Natürlichkeit der zu synthetisierenden Sprache einfach beherrschbare Maßnahmen zur Wort-und Satz-Melodievariation anzugeben, womit die der Sprachsynthese im Zeitbereich innewohnenden Vorzüge in bezug auf die Verständlichkeit, den Synthesealgorithmus und die Synthetisiergeschwindigkeit erheblich an Bedeutung gegenüber den im Parameterbereich arbeitenden Systemen gewinnen. Gemäß der Erfindung wird dies dadurch erreicht, daß insgesamt ca. 100 Lautelemente vorgesehen sind, nämlich:
    • - etwa 50 Elemente für Übergangslaute mit je durchschnittlich 240 Abtastwerten für 8 kHz Ausgabefrequenz und
    • - etwa 40 Elemente für Einzellaute mit je durchschnittlich 500 Abtastwerten bei stimmlosen und 140 Abtastwerten bei stimmhaften Einzellauten und 8 kHz Ausgabefrequenz,
    und daß die Tonhöhe für die Wiedergabe bei den Elementen für die stimmhaften Übergangs- und Einzellaute veränderbar ist, indem solche Abtastwerte, die an diskreten Stellen des Zeitsignals mittels Markierwörtern als geeignet vorgegeben sind, je nach Bedarf aufgrund entsprechender Eingangsbefehle bei der Bildung der digitalen Signalfolgen ausgelassen bzw. mindestens einmal verwendet werden.
  • Ohne die Bedeutung der angegebenen Einzelheiten bei der Reduzierung der Sprachdaten schmälern zu wollen, werden nachfolgend zunächst die Maßnahmen für die Melodievariation näher erläutert. Wesentlich dafür ist die Tatsache, daß Veränderungen der Melodie von Sprache auf die stimmhaften Anteile entfallen und daß stimmhafte Laute eine große Periodizität aufweisen. Die zu speichernden signifikanten Bereiche benötigen also nur verhältnismäßig wenig wahre Abtastwerte, in der Größenordnung von 80 wahren Abtastwerten je stimmhaften Einzellaut. Innerhalb dieser signifikanten Bereiche, die eine Pitchperiode darstellen und das lauttypische Frequenzgemisch der Formanten enthalten, gibt es mehrere diskrete Stellen, an denen das Formantenfrequenzgemisch ii4 Zeitsignalverlauf kaum oder nur geringfügige Veränderungen zeigt. Die für die Erfindung wesentliche Erkenntnis liegt nun darin, genau aus diesen "unempfindlichen" diskreten Stellen bewußt Veränderungsmöglichkeiten vorzusehen. Das bedeutet, die Pitchperiode kann verändert, verlängert oder verkürzt, und damit die Grundtonhöhe entsprechend abgesenkt oder angehoben werden, wenn Abtastwerte an diesen diskreten Stellen verwendet oder ausgelassen werden, ohne daß sich dadurch der Lautchärakter ändert. Zur Lokalisierung dieser diskreten Stellen, etwa 30 innerhalb eines derartigen signifkanten Bereiches, dienen besondere "Abtastwerte", die Markierwörter, die es erlauben, diese Stellen jederzeit aufzufinden. Die Markierwörter selbst entfallen bei der Verkettung der Elemente zu den digitalen Signalfolgen. Entsprechend dazu lassen 60 Abtastwerte, z.B. die jeweils einem Markierwort benachbarten, je nachdem, ob sie verwendet werden oder nicht, eine praktisch kontinuierliche Variation der Tonhöhe, also sehr viele Melodieverläufe zu. Insbesondere lassen sich dadurch auch die Sprachgrundfrequenzverläufe an den übergängen zu den folgenden Lauten kontinuierlich gestalten, also Stoßstellen vermeiden.
  • Hierin liegt auch ein Grund dafür, daß als Synthesebausteine insgesamt nur ca. 100 Lautelemente benötigt werden. Bei der Aufbereitung der Lautelemente, also in der Analysephase, sind die natürlichen Sprachproben, aus denen die zu verwendenden Lautelemente gewonnen werden, ohnehin zu untersuchen, beispielsweise die oben erwähnten "unempfindlichen" Stellen zu bestimmen. Dabei lassen sich diese Sprachproben rechnerisch modifizieren, insbesondere bei übergangslauten Diskontinuitäten in den Formantverläufen eleminieren.
  • Die Ausnutzung von Lauttransformationen, d.h. einer gegenseitigen Überführbarkeit verwandter Laute, war bereits Gegenstand beim aus der DE-OS 25 31 006 bekannten Stand der Technik, von dem die Erfindung ausgeht. Dort führte die Reduzierung z.B. bei den Konsonanten von 22 auf 8. Weiterhin waren etliche Ausnahmen, etwa 150 Übergänge, je eine Pitchperiode stimmhafter Laute sowie ein Abschnitt aus dem Mittelteil der stimmlosen Laute und schließlich bei Explosivlauten noch der Anfang der Zeitfunktion zu speichern. Bei der Erfindung ergibt sich eine erhebliche Reduzierung aufgrund folgender Maßnahmen: Übergänge - ausgenommen Plosivlautkombinationen - lassen sich zeitlich invertieren; durch Verlängern bzw. Verkürzen der Lautdauer finden Vokalumwandlungen statt, durch Verkürzen der Lautdauer ergeben sich auch Konsonantenumwandlungen. Die benötigten Lautelemente setzen sich dadurch zusammen aus knapp 60 Elementen für übergangslaute, 27 Elementen für stimmhafte Einzellaute und 13 Elementen für stimmlose Einzellaute. Weitere Einzelheiten dazu folgen noch im Zusammenhang mit der Figurenbeschreibung.
  • Besonders bevorzugte Ausführungsformen der Erfindung bestehen darin, in den digital gespeicherten Elementen für die stimmhaften Einzellaute zum Zwecke der Tonhöhenvariation zusätzliche Abtastwerte vorzusehen. Diese Maßnahme führt zwar zu einer geringfügigen Erhöhung um ca. 1000 Byte des benötigten Speicherplatzvolumens, ermöglicht aber weitergehende Variationen in den Melodieverläufen.
  • Im engen Zusammenhang damit ist es weiterhin vorteilhaft, wenn ein zusätzlicher Abtastwert einen zwischen den benachbarten wahren Abtastwerten liegenden interpolierten Wert besitzt. Auf diese Weise lassen sich eventuelle Diskontinuitäten verringern oder vermeiden, die zwischen den wahren Abtastwerten, die auf jeden Fall benötigt und verwendet werden, auftreten würden.
  • Wie bereits weiter oben schon erwähnt, sind für die Maßnahmen zur Melodievariation "unempfindliche" Stellen in den Zeitverläufen bevorzugt, d.h. Markierwörter sind vorzugsweise an Stellen geringer Steigung des Zeitsignals vorzusehen. Ein zugehöriges Fehlersignal weist an solchen Stellen sehr kleine Ausschläge auf und erlaubt damit auf einfache Weise, die gewünschten diskreten Stellen zu ermitteln, zu lokalisieren und zu markieren.
  • Manchmal, besonders bei großen, erwünschten Tonhöhenschwankungen, kann es erforderlich sein, den möglichen Bereich der für Auslassungen bzw. die Verwendung geeigneten Abtastwerte voll auszunutzen. Häufiger sind jedoch die Fälle, in denen nur einige der zur Verfügung stehenden vorgegebenen Abtastwerte benötigt werden. Aus diesem Grunde ist es günstig, wenn Markierwörter an Stellen geringer Steigung des Zeitsignals mit einer höheren Priorität für Tonhöhenvariation ausgestattet sind als solche an Stellen mit größerer Steigung. Das bedeutet, zunächst erfolgen derartige Veränderungen immer an den unempfindlichsten Stellen, gegebenenfalls werden aber auch die empfindlicheren Stellen dazu herangezogen.
  • Obwohl durchaus auch die Möglichkeit besteht, bei den für Tonhöhenvariation als geeignet vorgegebenen Abtastwerten getrennt vom gespeicherten Lautelement_die zugehörigen Adressen zu verwalten, wird bei den Ausführungsformen der Erfindung die Lösung mit den Markierwörtern bevorzugt. Dabei können ein Markierwort und ein wahrer oder zusätzlicher Abtastwert digitale Muster desselben Vorrats aufweisen. Hinsichtlich einer eindeutigen Unterscheidbarkeit zwischen Markierwort und Abtastwert sollen dann jedoch Markierwörtern digitale Muster vorbehalten sein, die bei den Abtastwerten nicht vorkommen.
  • Allein schon aus Gründen unterschiedlicher Prioritäten reicht ein einziges Muster für Markierwörter nicht aus. Da eine softwaremässige Identifizierung der Muster keine besondere Systematik bei der Verteilung der digitalen Muster erfordert, ist es ohne weiteres möglich, für Markierwörter die Muster mit-den höchsten Stellenzahlen, bei 8-bit-Wörtern z.B. die Muster 246, 247, ... 255, vorzubehalten. Diese Muster können bei der Digitalisierung der Abtastwerte deshalb auf besonders vorteilhafte Weise ausgespart werden, weil eine Begrenzung am oberen Ende zu kaum spürbaren Beschränkungen führt.
  • Von besonderer Bedeutung ist es für Ausführungsformen der Erfindung, während der Wortpausen die Gestalt der für die Verkettung des nächstfolgenden Wortes benötigten Lautelemente anhand der Eingangsbefehle bestimmen zu können. Hierdurch werden Diskontinuitäten bei der Ausgabe der einzelnen Wörter vermieden. Die Dauer für die Bestimmung der Gestalt der benötigten Synthesebausteine liegt, auch für sehr lange Wörter, im Bereich von wenigen Millisekunden. Unter Bestimmung der Gestalt ist hier zu verstehen: aufsuchen des betreffenden Lautelements, gegebenenfalls zeitlich invertieren, Lautdauer verlängern bzw. verkürzen und Wiederholanzahl des gespeicherten Lautelements angeben.
  • Ein weiterer wesentlicher Vorzug der Erfindung besteht darin, daß über eine alphanumerische Tastatur eingegebene Folgen üblicher Schriftzeichen in einem dem eigentlichen Synthesevorgang vorausgehenden Verfahrensschritt selbsttätig in eine als Eigangsbefehle geeignete Folge von Lautschriftzeichen transkribiert werden kann. Hierdurch wird auch ungeübten bzw. nicht geschulten Benutzern die Anwendung erheblich erleichtert bzw. überhaupt erst eröffnet. Selbstverständlich bleibt dabei auch die Möglichkeit bestehen, Lautschriftzeichen bzw. die geeigneten Eingangsbefehle unmittelbar einzugeben.
  • Für die Transkription ist allerdings weiteres Speichervolumen erforderlich. Überraschend ist dabei, daß dafür jedoch nur etwa ein Drittel desjenigen Speicherplatzvolumens benötigt wird, der für die Synthese vorzusehen ist, d.h. etwa ein Viertel des gesamten Speicherplatzvolumens für Synthese und Transkription, wenn die Transkription auf folgende Art durchgeführt wird: zunächst werden lexikalisch erfaßte Ausnahmen und Fremdwörter bearbeitet; ansonsten wird der Wortschatz einer Präfixverarbeitung, unter Berücksichtigung von Ausnahmen, einer Endungsabspaltung und einer Suffixverarbeitung, ebenfalls unter Berücksichtigung von Ausnahmen, unterzogen und die Transkription der Wortstämme nach katalogartig gespeicherten Regeln durchgeführt. Diese oder ähnliche Maßnahmen sind für Sprachwissenschaftler an sich geläufig.
  • Eine Schaltungsanordnung zur Durchführung des erfindungsgemäßen Verfahrens kann mit einem Mikroprozessor aufgebaut sein, an den Festwertspeicher mit einer Speicherkapazität von insgesamt 32 kByte und ein Arbeitsspeicher für 1 kByte anzuschließen sind, und weist außerdem einen dekompandierenden Digital-Analog-Wandler und einen -lautstärkeregelbaren- Niederfrequenzverstärker und einen Lautsprecher als elektro-akustische Wandlereinrichtung auf. Derartige Schaltungselemente und Bauteile sind marktüblich. Das Konzept ermöglicht aber auch eine weitgehende Integration. Die Dekomparadierung vor der Digital-Analog-Wandlung beinhaltet selbstverständlich, daß zuvor die gespeicherten Daten einer die Datenrate reduzierenden'Kodierung unterzogen wurden. Gebräuchliche und in der angegebenen Reihenfolge immer stärker reduzierende Verfahren sind die logarithmische PCM und die Adaptive-Delta-PCM. Aus gebräuchlichen Sprach-Ubertragungssystemen sind betreffende Bauteile bekannt und ohne weiteres auch bei Ausführungsformen der Erfindung einzusetzen.
  • Hinsichtlich des Aufwandes bei Schaltungsanordnungen sind noch immer die Speicher, genauer gesagt deren Größe, von Bedeutung. Deshalb ist es wichtig für Kostenabschätzungen, daß bei einer Schaltungsanordnung zur Durchführung des erfindungsgemäßen Verfahrens die Aufteilung der Kapazität von Festwertspeichern in:
    • 1,5 kByte für das Transkriptionsprogramm, .
    • 6 kByte für die Transkriptionsgrammatik,
    • 1,5 kByte für das Syntheseprogramm,
    • 1 kByte für die Synthesematrix
    • und 22 kByte für die Lautelemente
    • erfolgen kann.
  • Schließlich ist es für die verschiedenartigen Einsatzgebiete von Ausführungsformen der Erfindung wichtig, daß die Eingabe der Daten, d.h. der Schreib- oder Lautschriftsymbolfolgen, sowie die Ausgabe der akustischen Signale sowohl direkt am Gerät als auch jeweils an entfernten Orten erfolgen kann. Dazu kann entsprechend am Eingang z.B. eine V24-Schnittstelle bzw. am Ausgang eine Niederfrequenzbuchse vorgesehen sein.
  • Die Anwendungsmöglichkeiten für ein derartiges Sprachsynthesesystem sind aufgrund der Möglichkeit, ein unbegrenztes Vokalubar zu generieren, äußerst mannigfaltig. Beispielhaft sollen erwähnt sein: Telefon-Auskunftssysteme; akustischer Ersatz oder Unterstützung bei unübersichtlichen Anzeigetafeln, insbesondere Flug- oder Fahrplänen; Ersatz oder Ergänzung dort, wo die Aufmerksamkeit von Personen durch Dauerbeobachtung einzelner Ziffern- oder Textanzeigen oder Warnanlagen über Gebühr beansprucht wird, z.B. bei Flugzeug-Bordsystemen; Tastenwahltelefone als Eingabetastatur und Telefonhörer als Ausgabe bei Datenverarbeitungsanlagen, z.B. für Auskünfte sich laufend ändernder Daten, wie Lagerbestände, Kontenständer Börsenkurse, medizinische Diagnosen oder laufende Überwachung von Körperfunktionen von Patienten im Krankenhaus oder zu Hause; Bestellungen von Waren nach Katalognummern, von Theater- oder Konzertkarten; Erteilung und Annahme von Aufträgen, Umdispositionen u. dgl.; Fernübertragung von Prozessdaten; Hausleitsysteme; Sprachen-Unterricht; Computergestützter Unterricht; Verkehrsleitung; Bibliotheken-Anfragen und Auskünfte; Lexikon- Auskunftsdienst, Hilfe für Behinderte -Sprach- und Sehbehinderte- und vieles mehr.
  • In den Zeichnungen sind Einzelheiten für Ausführungsformen der Erfindung schematisch dargestellt. Dabei zeigen:
    • Fig. 1: ein Blockschaltbild für ein Sprachsynthesegerät mit Transkriptionseinheit,
    • Fig. 2: ein Blockschaltbild eines Sprachsynthesegerätes mit Transkriptionseinheit, auf Mikroprozessorbasis;
    • Fig. 3: eine Darstellung der Lage der drei ersten Formanten für verschiedene Laute;
    • Fig. 4: eine Darstellung von Formantsprüngen an den übergängen zwischen drei Einzellauten;
    • Fig. 5: eine Darstellung für die Reduktionsmöglichkeit der Länge von Elementen;
    • Fig.6a: ein Beispiel für zeitliche Invertierung von Übergangslauten;
    • Fig.6b: die Möglichkeiten für Vokalumwandlungen;
    • Fig.6c: die Möglichkeiten für Konsonantenumwandlungen;
    • Fig. 7: ein Beispiel für die Veränderung des Höreindrucks durch Verschieben des Anfangspunktes;
    • Fig. ein Beispiel für die rechnerische Modifizierung
    • 8a,b,c: eines stimmhaften Einzellautes zur Variation der Tonhöhe;
    • Fig. 9: ein -auszugsweises- Beispiel für die Anordnung von wahren, auslaßbaren und zusätzlichen Abtastwerten sowie von Markierwörtern in einem gespeicherten Element eines stimmhaften Einzellautes;
    • Fig. 10: eine Darstellung der Aufteilung und des Inhaltes des Lautelemente-Speichers;
    • Fig. ll: eine Darstellung des Ablaufs einer Transkription
    • und Fig. 12: eine Darstellung eines Synthesebeispiels (monoton).
  • Wie die Fig. l zeigt, besteht eine Sprachsynthesesystem bei Ausführungsformen nach der Erfindung im wesentlichen aus zwei Einheiten, der für die Transkription und der für die Synthese selbst. Einzugeben ist entweder eine Schriftzeichenfolge, was über eine alphanumerische Tastatur oder über eine V24-Schnittstelle geschehen kann, oder aber eine Lautzeichenfolge. Obwohl geübte bzw. geschulte Benutzer über geeignete Tastaturen auch die Lautzeichenfolgen unmittelbar eingeben können, wird in den meisten Anwendungsfällen bei einem Verzicht auf die Transkription die Syntheseeinheit dann wohl die entsprechenden Eingangssignale von einem entfernten Ort über eine Datenleitung und die V24- Schnittstelle erhalten. Selbstverständlich lassen sich auch andere Schnittstellenbedingungen einhalten und im Rahmen fachmännischen Könnens realisieren. Die Transkriptionseinheit greift auf vorbereitete Regeln, unter dem Begriff Grammatik zusammengefaßt, zurück, die Syntheseeinheit im wesentlichen auf die gespeicherten Lautelemente. Die synthetisierten Abtastwertfolgen gelangen über einen Digital-Analog-Wandler D/A und einen regelbaren Verstärker entweder direkt über einen Lautsprecher oder über eine Niederfrequenzbuchse und eine nicht dargestellt Sprachübertragungsleitung und am entfernten Ort über einen Lautsprecher als Schallwellen zur Wieder-, besser Ausgabe,
  • Das in Fig. 2 dargestellte Blockschaltbild gibt insbesondere im Größenvergleich der einzelnen Blöcke den Speicherplatzbedarf mit den Anteilen wieder, die für die Synthese und die Transkription insgesamt benötigt werden. Das System ist auf Bas.is eines Mikroprozessors pP konzipiert. Für die Eingabe der Schriftzeichenfolgen ist eine alphanumerische Tastatur, für die Ausgabe der als Sprache wahrnehmbaren Schallwellen ein üblicher elektro-akustischer Wandler vorgesehen. Für die Transkription arbeitet der Mikroprozessor pP mit dem Transkriptionsprogramm TP und der Transkriptionsgrammatik TG, bei der Sprachsynthese mit dem Syntheseprogramm SP und der Synthesematrix SM, wobei die benötigten Lautelemente je nach Bedarf aus dem Lautelementespeicher SE entnommen, in die im Arbeitsspeicher RAM abgelegte, aus der betreffenden Lautzeichenfolge abgeleitete Gestalt gebracht, in der betreffenden Anzahl und Reihenfolge verkettet und an den Digital-Analog-Wandler (s. Fig. 1, D/A) übergeben werden. Eine Lautstärkeregelung innerhalb der synthetisierten Wörter und Sätze erfolgt, ebenfalls vom Mikroprozessor pP gesteuert und entsprechend dafür eingegebener Befehle, im regelbaren Niederfrequenzverstärker (s. Fig. l) vor der Abstrahlung der Schallwellen bzw. der Übertragung des Niederfrequenzsignals.
  • Die in Fig. 3 dargestellte Lage der drei ersten Formanten für neun verschiedene Laute läßt erkennen, daß insbesondere der erste und der zweite Formant von erheblicher Bedeutung für die Lautbildung sind. Aufgrund der linearen Teilung der Frequenzskala darf jedoch nicht übersehen werden, daß auch beim dritten Formanten der Bereich etwa einer halben Oktave beansprucht wird.
  • In Fig. 4 ist für drei Laute die Lage der Formanten dargestellt. Es zeigt sich, daß an den Übergängen teilweise recht erhebliche Sprünge auftreten, die als äußerst unangenehm wahrgenommen werden würden. Hierbei handelt es sich jedoch um bekannte Erscheinungen, die lediglich deshalb nicht unerwähnt bleiben sollen, um die Vielschichtigkeit der Probleme anzudeuten, die bei einem Sprachsynthesesystem zu beachten sind.
  • Das in Fig. 5 dargestellte Zeitsignal des Wortes "Asche" soll die Möglichkeit der Reduktion der Länge von Lautelementen durch Segmentierung in quasistationäre Bereiche S und Übergangsbereiche U veranschaulichen. Innerhalb der quasistationären Bereiche S sind Sprachgrundfrequenzperioden P zu erkennen, die den signifikanten Bereich eines Lautes bilden und nur in dieser Länge als Element für die Synthese abgespeichert zu werden brauchen. Ähnliche Grundfrequenzperioden sind auch bei übergangsbereichen zu erkennen und reichen als Synthesebaustein ebenfalls aus.
  • Die in den Fig. 6a, 6b und 6c angegebenen Möglichkeiten für zeitliche Invertierung von Übergängen (Fig. 6a), für Vokalumwandlung (Fig. 6b) und für Konsonantenumwandlung (Fig. 6c) sprechen für sich und bedürfen deshalb hier keiner näheren Erläuterung. Allerdings ist, wie weiter oben bereits erwähnt, darauf hinzuweisen, daß eine Verkürzung oder Verlängerung der Lautdauer eben nicht nur eine Verlagerung der Tonhöhe mit sich bringt, sondern insbesondere eine Lautumwandlung bewirkt. Von den 16 in Fig. 6 c angegebenen Lauten brauchen übrigens nur die in jeder Zeile an erster Stelle angegebenen gespeichert zu werden. Dies sind zwar die Laute mit den jeweils meisten benötigten Abtastwerten, doch wird dadurch Speicherplatz von gut 60 % gegenüber einer Speicherung aller dieser Laute eingespart.
  • Die in Fig. 7 dargestellte Veränderung des Höreindrucks gibt an, daß 20 Testpersonen eine Konsonantenumwandlung feststellen sollten (in Klammern), die - bis auf zwei Personen bei der Verschiebung des Anfangspunktes auf 160 ms - den angegebenen Höreindruck bei den einzelnen Umwandlungsformen bestätigten.
  • Die Fig. 8a, 8b und 8c zeigen an einem Beispiel, auf welche Weise die bei der Erfindung wesentliche Variation der Tonhöhe ermöglicht wird. In Fig. 8a ist eine Grundfrequenzperiode des Lautes /a/ aufgetragen. Zur Modifizierung wird zunächst von einem Prädiktionsfehlerfilter das dazugehörige Fehlersignal (Fig. 8b) erzeugt. Daraus ist zu erkennen, daß diskrete Stellen angegeben werden können, an denen Modifizierungen vorzunehmen sind, ohne den Lautcharakter, jedoch seine Tonhöhe zu verändern. In Fig. 8c ist die gegenüber Fig. 8a um etwa 20 % gekürzte Periode des Lautes /a/ angegeben. Es zeigt sich im Vergleich der Kurvenverläufe von Fig. 8a und 8c, daß eine Verkürzung der Periode, d.h. eine Erhöhung der Tonhöhe, das eigentliche charakteristische Bild nicht verändert, der Laut /a/ als solcher also erhalten bleibt und -wie gewünscht- höher klingt.
  • In der Fig. 9 ist ein Beispiel -.auszugsweise - angegeben, in welcher Reihenfolge (lfd. Nr.) in einem gespeicherten Element eines in der Tonhöhe veränderbaren, stimmhaften Übergangs- oder Einzellautes wahre Abtastwerte WAW, auslaßbare Abtastwerte DAW, zusätzliche Abtastwerte ZAW und Markierwörter MAW aufeinanderfolgen. Im Normalfall, d.h. wenn keine Tonhöhenvariation erfolgen soll, werden nur die wahren Abtastwerte WAW verwendet. Für eine Absenkung der Tonhöhe werden zusätzliche Abtastwerte ZAW mit verwendet, für eine Erhöhung hingegen gegenüber dem Normalfall auslaßbare Abtastwerte DAW weggelassen. Mit den Markierwörtern werden nicht nur die zusätzlichen ZAW bzw. auslaßbaren Abtastwerte DAW lokalisiert, sondern vorteilhaft auch deren Priorität für Tonhöhenänderungen bestimmt.
  • Der in Fig. 10 dargestellte Block soll das Verhältnis des Speicherplatzbedarfs veranschaulichen, der für die Synthesebausteine, die Elemente der Einzel- und der Übergangslaute, benötigt wird. Dabei handelt es sich in erster Linie um die wahren Abtastwerte WAW der Elemente, außerdem aber auch um die Markierwörter MAW und die rechnerisch bestimmten zusätzlichen Abtastwerte ZAW bei den stimmhaften Einzellauten bzw. den stimmhaften Bereichen von Übergangslauten. Die gestrichelte Linie zwischen den Bereichen für die Einzellaut- und die übergangslaut-Elemente zeigt eine Aufteilung etwa im Verhältnis 4 : 6.
  • Die Fig. ll, in der der Ablauf einer Transkription dargestellt ist, spricht für sich, soll aber anhand eines Beispiels, die Transkription des Wortes "verwischend" näher erläutert werden:
  • Bei der lexikalischen Verarbeitung ergibt sich, daß es sich um keine Ausnahme handelt. Die Wortanalyse erfolgt also nach:
    Figure imgb0003
  • Bei der Transkription des Stammes nach Regeln ist festzustellen, ob die Aussprache der Symbolfolge "sch" als ein Laut /sch/ (wie in: Schule) oder als zwei getrennte Laute /s/ und /ch/ erfolgen muß. Dazu gelten folgende Regeln aus dem Katalog: Befinden sich vor "sch" zwei Vokale oder ein Umlaut, gilt zunächst die zweite Alternative, also zwei getrennte Laute /s/ und /ch/ (Beispiel: Röschen/Roeschen). Ist dabei jedoch der zweite Vokal ein "u", gilt dennoch die erste Alternative, d.h. der Einzellaut /sch/ (Beispiel: tauschen).
  • Befinden sich vor "schen" drei Vokale, wobei ein Umlaut wiederum als zwei Vokale angesehen werden, gilt wieder die zweite Alternative, also.zwei getrennte Laute /s/ und /ch/ (Beispiel: Häuschen/Haeuschen). Ausnahmen hiervon sind nur zwei Wörter: täuschen/taeuschen und Geräuschen/Geraeuschen.
  • Ein weiteres Beispiel aus dem umfangreichen Regelkatalog betrifft den Laut /ch/. Dabei werden unterschieden:
    Figure imgb0004
    wobei hier jeweils nur einige Lautbeispiele aufgeführt sind.
  • Die Fig. 12 zeigt den Signalverlauf - monoton - des synthetisierten Wortes /Tasche/. (Eine den Signalverlauf, die Melodik, Rhythmik und Dynamik enthaltende Darstellung wäre, soweit mit gebräuchlichen Mitteln überhaupt möglich, zweifellos unübersichtlicher). Für das /t/ wurde ein gekürztes /s/ verwendet. Der Übergang /ta/ entstammt dem Doppellaut /sa/. Für das /a/ wurden einer Periode 8 Wiederholungen angefügt. Der Übergang /asch/ wurde dem Doppellaut /sa/, zeitlich invertiert, entnommen. Beim /sch/ handelt es sich um einen stimmlosen Einzellaut. Der Übergang /scha/ entstammt dem Doppellaut /sa /. Schließlich wurde für das /a / am Ende zunächst eine Periode 6mal und sodann noch 6mal, jedoch mit dem Ausschnitt einer Sinusfunktion bewertet, wiederholt.

Claims (14)

1. Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz im Zeitbereich aus Lautelementen, die aus natürlichen Sprachproben gewonnen und in digitaler Form, redundanzarm kodiert, gespeichert und außerdem im Hinblick auf den erforderlichen Speicherplatzbedarf in der Länge jeweils auf den signifikanten Bereich des betreffenden lauttypischen Zeitsignals und in der Anzahl unter Ausnutzung sich gegenseitig ineinander überführbarer verwandter Laute reduziert sind, wobei zur Sprachsynthese diese Lautelemente aufgrund von Eingangsbefehlen und von vorgegebenen Verknüpfungsregeln in der erforderlichen Gestalt, Anzahl und Reihenfolge zu digitalen Signalfolgen verkettet werden, aus denen mittels Digital-Analog-Wandlung und steuerbarer Verstärkung als Sprache wahrnehmbare Schallwellen erzeugt werden, dadurch gekennzeichnet , daß insgesamt ca. 100 Lautelemente, nämlich:
etwa 50 Elemente für Ubergangslaute mit je durchschnittlich 240 Abtastwerten für 8 kHz Ausgabefrequenz und
- etwa 40 Elemente für Einzellaute mit je durchschnittlich 500 Abtastwerten bei stimmlosen und 140 Abtastwerten bei stimmhaften Einzellauten und 8 kHz Ausgabefrequenz vorgesehen sind, und daß die Tonhöhe für die Wiedergabe bei den Elementen für die stimmhaften übergangs- und Einzellaute veränderbar ist, indem solche Abtastwerte, die an diskreten Stellen des Zeitsignals mittels Markierwörtern als geeignet vorgegeben sind, je nach Bedarf aufgrund entsprechender Eingangsbefehle bei der Bildung der digitalen Signalfolgen ausgelassen bzw. mindestens einmal verwendet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß in den digital gespeicherten Elementen für die stimmhaften Laute zum Zwecke der Tonhöhenvariation zusätzliche Abtastwerte vorgesehen sind.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß ein zusätzlicher Abtastwert einen zwischen den benachbarten wahren Abtastwerten liegenden interpolierten Wert besitzt.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß Markierwörter vorzugsweise an Stellen geringer Steigung des Zeitsignals vorgesehen sind.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß Markierwörter an Stellen geringerer Steigung des Zeitsignals mit einer höheren Priorität für Tonhöhenvariation ausgestattet sind als solche an Stellen mit größerer Steigung.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß Markierwörtern digitale Muster vorbehalten sind, die bei den Abtastwerten nicht vorkommen.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß für Markierwörter die Muster mit den höchsten Stellenzahlen, bei 8-bit-Worten z.B. die Muster 246, 247, ... 255, vorbehalten sind.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß während der Wortpausen die Gestalt der für die Verkettung des nächstfolgenden Wortes benötigten Lautelemente anhand der Eingangsbefehle bestimmt wird.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß über eine alphanumerische Tastastur eingegebene Folgen üblicher Schriftzeichen in einem dem eigentlichen Sprachsynthesevorgang vorausgehenden Verfahrensschritt selbsttätig in eine als Eingangsbefehle geeignete Folge von Lautschriftzeichen transkribiert wird.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß zunächst lexikalisch erfaßte Ausnahmen und Fremdwörter bearbeitet werden, und der Wortschatz ansonsten einer Präfixverarbeitung, unter Berücksichtigung von Ausnahmen, einer Endungsabspaltung und einer Suffixverarbeitung, ebenfalls unter Berücksichtigung von Ausnahmen, unterzogen wird, und die Transkription der Wortstämme nach katalögartig gespeicherten Regeln durchgeführt wird.
11. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 10, gekennzeichnet durch einen Mikroprozessor (uP), an den Festwertspeicher (ROM) mit einer Speicherkapazität von insgesamt 32 kByte und ein Arbeitsspeicher (RAM) für 1 kByte angeschlossen sind, sowie durch eine an sich bekannte, aus einem dekompandierenden Digital-Analog- Wandler und einem Niederfrequenzverstärker und einem Lautsprecher bestehende elektro-akustische Wandlereinrichtung.
12. Schaltungsanordnung nach Anspruch 11, gekennzeichnet durch eine Aufteilung der Kapazität der Festwertspeicher (ROM) in: 1,5 kByte für das Transkriptionsprogramm,
6 kByte für die Transkriptionsgrammatik,
1,5 kByte für das Syntheseprogramm,
1 kByte für die Synthesematrix und
22 kByte für die Lautelemente.
13. Schaltungsanordnung nach Anspruch 11 oder 12, gekennzeichnet durch eine V24-Schnittstelle am Eingang.
14. Schaltungsanordnung nach einem der Ansprüche 11 bis 13, gekennzeichnet durch eine Niederfrequenzbuchse am Ausgang.
EP82730011A 1981-02-11 1982-02-11 Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens Expired EP0058130B1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AT82730011T ATE20784T1 (de) 1981-02-11 1982-02-11 Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE3105518 1981-02-11
DE19813105518 DE3105518A1 (de) 1981-02-11 1981-02-11 Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens

Publications (3)

Publication Number Publication Date
EP0058130A2 true EP0058130A2 (de) 1982-08-18
EP0058130A3 EP0058130A3 (en) 1982-09-08
EP0058130B1 EP0058130B1 (de) 1986-07-16

Family

ID=6124949

Family Applications (1)

Application Number Title Priority Date Filing Date
EP82730011A Expired EP0058130B1 (de) 1981-02-11 1982-02-11 Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens

Country Status (4)

Country Link
EP (1) EP0058130B1 (de)
AT (1) ATE20784T1 (de)
CA (1) CA1172365A (de)
DE (2) DE3105518A1 (de)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0107945A1 (de) * 1982-10-19 1984-05-09 Kabushiki Kaisha Toshiba Einrichtung zur Sprachsynthese
EP0144731A2 (de) * 1983-11-01 1985-06-19 Nec Corporation Sprachsynthesizer
EP0181339A1 (de) * 1984-04-10 1986-05-21 First Byte Realzeit text-wort-übertragungssystem
DE3530856A1 (de) * 1985-08-29 1987-03-05 Telefonbau & Normalzeit Gmbh Schaltungsanordnung zur akustischen bedienungshilfe bei fernmelde-, insbesondere fernsprechendgeraeten
US4862504A (en) * 1986-01-09 1989-08-29 Kabushiki Kaisha Toshiba Speech synthesis system of rule-synthesis type
FR2655759A1 (fr) * 1989-12-13 1991-06-14 Hodys Edgar Dispositif electronique de synthese vocale sans vocabulaire de reference.

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3513243A1 (de) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Verfahren zur sprachuebertragung und sprachspeicherung
DE19860133C2 (de) * 1998-12-17 2001-11-22 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3892919A (en) * 1972-11-13 1975-07-01 Hitachi Ltd Speech synthesis system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3892919A (en) * 1972-11-13 1975-07-01 Hitachi Ltd Speech synthesis system

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Elektronik, Band 26, Heft 9, September 1977 Munchen (DE) O.V. SOSKUTY: "Ein Sprachgenerator nach dem Prinzip der Phonem-Synthese", seiten 44-48 * Abbildungen 2, 4, 5 * *
ICASSP 79, 1979 IEEE International Conference on Acoustics, Speech & Signal Processing, 2-4. April 1979, Washington D.C. IEEE New York (US) R. SCHWARTZ u.a.: "Diphone Synthesis for Phonetic Vocoding" seiten 891-893 * seiten 892, 893, "Time Warping" *
IEEE Spectrum, Band 16, Heft 8, August 1979 New York (US) B.A. SHERWOOD: "The Computer Speaks", seiten 18-25 * seiten 22, 23; "The Votrax ML-1 Multilingual Voice System" *
Proceedings of the IEEE, Band 64, Heft 4, April 1976 New York (US) J. ALLEN: "Synthesis of Speech from Unrestricted Text", seiten 433-442 * Absatz V: "Letter-to-Sound Rules" * *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0107945A1 (de) * 1982-10-19 1984-05-09 Kabushiki Kaisha Toshiba Einrichtung zur Sprachsynthese
EP0144731A2 (de) * 1983-11-01 1985-06-19 Nec Corporation Sprachsynthesizer
EP0144731A3 (en) * 1983-11-01 1985-07-03 Nec Corporation Speech synthesizer
EP0181339A1 (de) * 1984-04-10 1986-05-21 First Byte Realzeit text-wort-übertragungssystem
EP0181339A4 (de) * 1984-04-10 1986-12-08 First Byte Realzeit text-wort-übertragungssystem.
DE3530856A1 (de) * 1985-08-29 1987-03-05 Telefonbau & Normalzeit Gmbh Schaltungsanordnung zur akustischen bedienungshilfe bei fernmelde-, insbesondere fernsprechendgeraeten
US4862504A (en) * 1986-01-09 1989-08-29 Kabushiki Kaisha Toshiba Speech synthesis system of rule-synthesis type
FR2655759A1 (fr) * 1989-12-13 1991-06-14 Hodys Edgar Dispositif electronique de synthese vocale sans vocabulaire de reference.

Also Published As

Publication number Publication date
DE3271965D1 (en) 1986-08-21
CA1172365A (en) 1984-08-07
DE3105518A1 (de) 1982-08-19
EP0058130B1 (de) 1986-07-16
ATE20784T1 (de) 1986-08-15
EP0058130A3 (en) 1982-09-08

Similar Documents

Publication Publication Date Title
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE4237563A1 (de)
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE2519483A1 (de) Verfahren und anordnung zur sprachsynthese
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE60205421T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
EP1344211B1 (de) Vorrichtung und verfahren zur differenzierten sprachausgabe
EP1554715B1 (de) Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
DE3232835C2 (de)
Nyarks et al. The Linguistic Evaluation of Anaang Syllable Structures
DE19939947C2 (de) Digitales Sprachsyntheseverfahren mit Intonationsnachbildung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Designated state(s): AT CH DE FR GB

AK Designated contracting states

Designated state(s): AT CH DE FR GB

17P Request for examination filed

Effective date: 19830210

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: GROSSMANN, EBERHARD, DR.-ING.

RIN1 Information on inventor provided before grant (corrected)

Inventor name: GROSSMANN, EBERHARD, DR.-ING.

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT CH DE FR GB LI

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: THE PATENT HAS BEEN ANNULLED BY A DECISION OF A NATIONAL AUTHORITY

Effective date: 19860716

REF Corresponds to:

Ref document number: 20784

Country of ref document: AT

Date of ref document: 19860815

Kind code of ref document: T

REF Corresponds to:

Ref document number: 3271965

Country of ref document: DE

Date of ref document: 19860821

EN Fr: translation not filed
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Effective date: 19870211

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

26N No opposition filed
GBPC Gb: european patent ceased through non-payment of renewal fee
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Effective date: 19881121

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 19900323

Year of fee payment: 9

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 19900430

Year of fee payment: 9

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Effective date: 19910228

Ref country code: CH

Effective date: 19910228

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Effective date: 19911101