DE3036680C2

DE3036680C2 - Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit

Info

Publication number: DE3036680C2
Application number: DE3036680A
Authority: DE
Inventors: Akihiro Asada; Tadashi Saito; Tohru Yokohama Sampei; Kazuhiro Umemura
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1979-10-01
Filing date: 1980-09-29
Publication date: 1984-07-12
Also published as: US4435832A; DE3036680A1; JPS623439B2; GB2060321B; GB2060321A; JPS5650398A

Description

e) den Interpolator (10), der die aus der Speichereinrichtung (8, 9) ausgelesenen Sprachparameter empfängt, die in jedem Rahmenintervall fortgeschriebenen Sprachparameter mit den vom vorhergehenden Rahmenintervall zugeführten Sprachparametern vergleicht und Sprachparameter zur Interpolation zwischen den verglichenen Sprachparametern während eines Zeitintervalls von 10 ms oder weniger erzeugt und diese der Sprachwiederherstelleinrichtung (11) zuführt;

f) einen Sprachgeschwindigkeits-Dehnungs/ Kompressionszähler (15), in den eine Wiedergabesprachgeschwindigkeit eingegeben wird, der ein Bezugstaktsignal zählt und in Abhängigkeit von der eingegebenen Wiedergabesprachgeschwindigkeit ein Zeitintervall eines Ausgangssignals bestimmt;

g) eine erste Logikanordnung (39), die das Ausgangssignal des Sprachgeschwindigkeits-Dehnungs/Kompressionszählers (15) empfängt und dieses dem Interpolator (10) als Zeitsteucrsignal zur Erzeugung der interpolierten Sprachpara- 5^r> meter zuführt;

h) eine zweite Logikanordnung (41), die das Ausgangssignal des Sorachgeschwindigkeits-Dehnungs/Kompressionszählers (15) empfängt und dieses der Sprachwiederherstelleinrichtung (11) als Zeitsteuersignal zur Sprachsynthese zuführt; und

i) einen weiteren Zähler (37), der das Ausgangssignal des Sprachgeschwindigkeits-Dehnungs/ Kompi'essionszählers (15) empfängt, seine Pro- b^r> quenz teilt und der Speichereinrichtung (8, 9) ein Zeitsteuersignal zuführt, um die Sprachparametcr für einen Rahmen während eines /.eitintervalls auszulesen, das durch eine Intcrpolationsanzahl gegeben ist, mit der der Interpolator (10) während eines Rahmens interpoliert, wodurch die Sprachsynthetisierzeit bei unveränderter Tonhöheninformation dehnbar und komprimierbar ist.

2. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß der lineare Vorhersagekoeffizient ein partieller Autokorreiationskoeffizient (PARCOR-Koeffizient) ist, der von den Sprachproben mit 10 ms bis 20 ms für jeden Rahmen erhalten ist.

3. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß der Speicher (8) zum Speichern der Sprachparameter durch eine Pufferschaltung (Register 9) zum Zwischenspeichern der empfangenen Sprachparameter gebildet ist.

Die Erfindung betrifft einen Sprachsynthesizer gemäß dem Oberbegriff des Patentanspruchs !, bei dem die Synthetisierungszeit der Sprache ohne Ändern der Tonhöhenfrequenz der synthetisierten Sprache dehnbar und komprimierbar ist.

Aus der US-PS 37 89 372 ist ein einfaches Verfahren zum Dehnen und Komprimieren der Abspiel- bzw. Wiedergabezeit mittels magnetischer Tonaufzeichnung und Wiedergabe durch ein Magnetband bekannt. Wenn die Bandfördergeschwindigkeit in der Wiedergabebetriebsart doppelt so groß ist, ist die Wiedergabezeit auf die Hälfte verringert. Wenn andererseits diese Geschwindigkeit halbiert ist, ist die Wiedergabezeit auf das Doppeite gedehnt. In diesem Fall wird die Tonhöhenfrequenz der wiedergegebenen Sprache auf das Doppelte oder auf die Hälfte geändert. Dieses Verfahren ist daher ungeeigne; für die hochwertige Wiedergabe (HiFi-Wiedergabe). Es gibt ein Verfahren, bei dem lediglich die Wiedergabe/.eit ohne Änderung der Tonhöhenfrequenz dehnbar und komprimierbar ist. Bei diesem Verfahren wird der Signalverlauf einer Wellenlänge einer Tonhöhenfrequenz eines Sprachsignals oder mehrfache deren Wellenlänge von dem Sprachsignal herausgeschnitten bzw. abgetrennt. Der abgetrennte Signalverlauf wird wiederholt mit der gleichen Wellenlänge verwendet oder mehrere herausgetrennte Signalverläufe werden zum Komprimieren der Wiedergabezeit gelöscht. Mit dieser Vorgehensweise ist erfolgreich die Wiedergabezeit ohne Änderung der Frequenz der Sprache dehnbar und komprimierbar. Jedoch liegt ein Problem beim Herausschneiden bzw. Abtrennen des Signalverlaufs vor. An den Verbindungspunkten, an denen die herausgeschnittenen Signalverläufe aneinander anschließen, treten Phasenverschiebungen auf, wodurch die Sprache verzerrt wird. Zahlreiche Versuche wurden unternommen, um dieses Verzerrungsproblem zu überwinden, jedoch ist noch keine einfache Dehnung/Kompression der Sprache erreicht worden. Es sei beispielhaft verwiesen auf David, E. E. jr. & McDonald, H. S.. »Note on Pitch Synchronous Processing of Speech« in journal Acoustic Society of America. 28 (i956a) S. 1261 - 1266. Kürzlich verbesserte Technologien bei der LS!-Technik ermöglichten die Entwicklung von Spraehsynthesizer-Chips; beispielsweise ist ein Sprachsynthesizer für Lehrzwecke angegeben worden (vgl. US-Patentanmeldung 9 01 192 vom 28.4. 1978). der günstig in bezug auf Preis. Größe

jnd Leistungsverbrauch ist Der Sprachsynthesizer verwendet die partielle Autokorrelation (PARCOR) und Desteht aus drei Chips, nämlich einem Masken-ROM, :inem Mikrorechner und einer Synthesizer-LSl. Der Sprachsynthesizer ist jedoch ohne Berücksichtigung der Möglichkeit ausgebildet, daß die Svnthetisierzungszeit dehnbar oder komprimierbar sein soll, ohne dabei die Tonhöhenfrequenz zu ändern.

Aus der Zeitschrift Electronics, 31.8.1978, H^ft 18, Seiten 109—116 ist ein Sprachsynthesizer gemäß dem Oberbegriff des Anspruchs 1 bekannt. Dieser Sprachsynthesizer verwendet einen ROM-Speicher zur Speicherung von Sprachparametern, ein !Ostufiges Digitalfilter, einen Digital/Analog-Wandler, der das Ausgangssignal des Digitalfiliers in ein Analogsignal umsetzt und einen Interpolator.

Anhand den Fig. 1 bis 3 wird das Prinzip der PAR-COR-Sprachsynthetisierung, ein Blockschaltbild des grundsätzlichen Aufbaus des bekannten PARCOR-Sprachsynthesizers und ein Schaltbild de: darin verwendeten Digitalfilters- erläutert.

Die F i g. 1 a — 1 c zeigen graphische Darstellungen des Ergebnisses einer Frequenzanalyse des Tons »o«. Der Signalverlauf gemäß Fig. la entspricht einem Gesamtspektrum. Das Gesamtspektrum kann als das Produkt einer Spektralhüllkurve, die sich mit der Frequenz langsam ändert, wie gemäß F i g. Ib, und einer Spektralfeinstruktur, die sich mit der Frequenz stark ändert, wie in Fig. Ic dargestellt, angesehen werden. Die Spektralhüllkurve gibt im wesentlichen eine Resonanzcharaktcristik eines Stimmkanals wieder, einschließlich der Information bezüglich vokaler Töne wie »a« und »o«. Die Spektralfeinstruktur enthält Information bezüglich der Tonhöhe der Sprache oder eines Maßes der Höhe des Tons. Der PARCOR-Koelfizient ist physikalisch der charakteristische Parameter, der eine Stimmkanai-Übcrtragungscharakteristik wiedergibt. Wenn also eine Filtercharakteristik, die die Sprache wiedergibt, in Form von PARCOR-Koeffizienten dargestellt ist, kann die Sprache synthetisiert werden.

Ein Grundaufbau des bekannten PARCOR-Sprachsynthesizers ist als Blockschaltbild in F i g. 2 dargestellt. Fig. 2 zeigt einen Generator 1, der weißes Rauschen erzeugt, einen Impulsgenerator 2, einen stimmhaft/ stimmlos-Schalter 3, einen Multiplizierer 4, ein Digitalfilter 5, einen D/A-Umsetzer 6 und einen Lautsprecher 7. Beim Synthetisieren der Sprache werden eine Beurleilungsinformation bezüglich stimmhaft'stimmlos auf der Grundlage der Daten, die durch Analysieren eines natürlichen vokalen Tons, eine Tonhöheninformation, eine Lautstärke bzw. Ampliuideninformaiion, Parameter A-, - k,- (P = positiv und ganz/ahlig) als PARCOR-Koeffizicnten zeitsequentiell dem Sprachsynthesizer zügel iihrt.

liine Ausliihrungsiorm des Digitalfilters 5 ist in F i g. 3 dargestellt, und /war ein primärer PARCOR-Koeffi-/ientoneingiuig 11-1, ein sekundärer PARCOR-Koeffizicmeneingang 11-2, ein P-Gradeinganij 11-/', Multiplizierer 11.Λ und XMi, Addierer HC und HD und ein verzögernder Speicher UE Wie dargestellt, werden die PARCOR-Koeffizienten den jeweiligen Multiplizierern zugeführt. Weiter sind ein Impulseingangsanschluß 13 und ein Aus.aangsanschluß 14 für die synthetisierte Sprache vorgesehen.

Wenn ein Impuls oder weißes Rausehen dem Lin-L'angsiiriSL'hiuß 13 des Filters 5 zugeführt wird, zeigt das '\usgangssignal vom "Xusgangsanschluß 14 die gleiche Sni'kiralliüllkiM"\eiK'h.iraKli.'rislik wie die Sprache. Das Aubgangssignal wird durch den D/A-Umsetzer 6 in ein Analogsignal umgesetzt, aus dem wiederum ein Sprachsignal durch den Lautsprecher 4 wiederhergestellt wird. Die Zeitschrift Electronics vom 31.8.1978, Heft 18, Seiten 109- 116 enthält keinen Hinweis, daß die Synthetisiergeschwindigkeit der Spracnsynthese durch Änderung des Ausgabeintervalls des Interpolators und des Einleseintervalls der Speichereinrichtung geändert werden kann.

ίο Es ist Aufgabe der Erfindung, einen Sprachsynthesizer anzugeben, bei dem die Sprachzeit bei unveränderter Tonhöheninformation dehnbar und komprimierbar ist.

Die Lösung der obigen Aufgabe geschieht bei einem Sprachsynthesizer gemäß dem Oberbegriff des Anspruchs 1 durch die im Kennzeichen des Anspruchs 1 enthaltenen Merkmale.

Vorteilhafte Ausgestaltungen enthalten die Unteransprüche.

Die Erfindung wird anhand der in der Zeichnung dargestellten Ausführungsbeispiele näher erläutert. Es zeigen

Fig. la—Ic Sprachspektren zur Erläuterung der PARCOR-Sprachsynthetisierung;

F i g. 2 ein Blockschaltbild des grundsätzlichen Aufbaus des PARCOR-Sprachsynthesizers;

F i g. 3 ein Schaltbild eines Digitalfilters, das in dem Sprachsyntheiisierabschnitt verwendet ist;

F i g. 4 ein Blockschaltbild eines Ausführungsbeispiels

jn der Erfindung;

Fig. 5 ein Blockschaltbild eines Interpolators gemäß F ig. 4;

F i g. 6 ein Blockschaltbild eines Dehnungs/Kompressions-Zählers;

F i g. 7 ein Blockschaltbild einer Synthetisierzeitsteucrschaltunggemäß Fig.4;

F i g. 8 einen Zeitplan zur Erläuterung der Betriebsweise des Ausführungsbeispiels der Erfindung.

Zunächst zeigt Fig. 4 schematisch ein Ausführungsbeispiel des Sprachsynthesizers. In Fig.4 speichert ein Spruchparameterspeicher 8 Daten über die PARCOR-Koeffizienten, die durch Analysieren der Sprachwelle erhalten sind, die Amplituden, die Tonhöhen, die stimmhaft/stimmlos Umschaltung und dergleichen. Ein Register 9 speichert Parameter zeitweise, die von dem Sprachparameterspeicher 8 abgegeben werden, um die ankommenden Parameter in einem vorgegebenen Format innerhalb des Synthesizers zwecks Zeitsteuereinstellung anzuordnen. Eine Interpolationsschaltung bzw. ein Interpolator 10 interpoliert die Parameter mit kurzen Zeitintcrvallen. Eine Synthetisierbetriebsschaltung 11 synthetisiert Sprache durch Verwendung der Parameter und enthalt das Digitalfilter 5. Dm digitale synthetisierte Sprache, die von dem Digitalfilter 5 erzeugt ist,

v> wird in ein entsprechendes Analogsignal umgesetzt (D/ A-Umsetzer 6). Ein Synihetisierzeitsteuerabschnitt 12 gibt die Zeitpunkte, die bei der Synthetisierbetriebsschaltung 11 verwendet sind, und steuert die Eingabe der Parameter. L-in Geschwindigkeits- bzw. Spraeh-

Mi Dehnungs/Komprcssions-Zähler 15 erzeugt Zeitsteuerungen bzw. Zeitpunkte in Übereinstimmung mit einem Ausmaß des Dehnens und Komprimierens der Sprachzeit bei der Sprachsynihetisierung, insbesondere ein /-ibspielgeschwindigkeits-Einstellsignal. Wenn die

r·'-, Sprachparamcterinlurmatiori von einem anderen Spiachanalysaior im On-Line-Betrieb erhalten wird, kann der Speicher 8 weggelassen werden.

Die Betriebsweise des erläuterten .Sprachsynthesizers

wird im folgenden erläutert.

Das vorliegende Ausführungsbeispiel verwendet zur Sprachsynthetisierungdas PARCOR-Verfahren.das bei dem linearen Vorhersagecodierverfahren verwendet ist. Bei dem PARCOR-Synthetisierverfahren werden die partiellen Autokorrclalionskoeffizienien (PARCOR-Koeffizienten) als die linearen Vorhersagekoeffizienten für die Stimm-Parameter beim Synthetisieren der Sprache verwendet. Der PARCOR-Koclfizient ist physikalisch der Reflektionskoeffizient des Stimm-Kanals (vocal tract). Daher wird durch Zuführen der PARCOR-Koeffizienten als Reflektionskoeffizienten zu einem mehrstufigen Digitalfilter das Modell des menschlichen Stimm-Kanals zum Synthetisieren der Sprache aufgebaut. Die PARCOR-Koeffizienten werden zuvor durch Analysieren der menschlichen Sprache mittels eines Rechners oder eines Sprachanalysators erhalten. Da sich die menschliche Sprache allmählich ändert, wird sie in Zeitintervallcn von 10 ms bis 20 ms ausgeblendet bzw. herausgeführt. Die PARCOR-Koeffizienten werden von der fragmentarischen Sprachprobe erhalten. Mit kürzerem »Rahmen« genannten Zeitintervall nehmen die PARCOR-Koeffizienten zu.

In diesem Fall wird eine allmählicher synthetisiertere Sprache erhalten, jedoch nimmt die Anzahl der Analysierschritte der Sprache zu. Im übrigen ist ein Rahmen die minimale Einheit für die Bestimmung des Analyse-Zeitintervalls der Sprache. In diesem Fall sind weniger Proben in dem Rahmen enthalten. Daher ist es schwierig, die Tonhöhendaten (ein Maß für die Höhe des Tons oder Schalls) der Sprache abzutasten. Andererseits ist dann, wenn der Rahmen lang ist, das Abtastproblem der Tonhöhendaten überwunden, wird jedoch die Sanftheit bzw. der allmähliche Übergang bei der synthetisierten Sprache gestört, wodurch sich eine grobe Sprache ergibt. Das beruht darauf, daß der lange Rahmen einer schrittweisen Bewegung des Mundes entspricht. Aus diesem Grund ist ein Bereich von 10 ms bis 20 ms für einen Rahmen als am günstigsten anzusehen. Bei dem vorliegenden Ausführungsbeispiel werden 20 ms für einen Rahmen verwendet. Gemäß F i g. 4 empfängt vor dem Sprachsynthesizer 11 das Register 9 Sprachparametcr eines Rahmens, wie die PARCOR-Parameter, das stimmhaft/stimmlos-Schaltsignai, Tonhöhendaten und Amplitudendaten, die in indirekter Beziehung zu der Synthetisierzeitsteuerung 12 stehen. Dann werden die Parameter zum Interpolator 10 übertragen, wo sie interpoliert werden mit einer Beziehung zu denjenigen in dem vorhergehenden Rahmen zur Bildung von acht Sprachparametern, die sich für jeden Interpolationsrahmen von 25 ms schrittweise ändern. Diese Daten werden zum Synthesizer 11 übertragen, wobei sie alle 2,5 ms fortgeschrieben werden.

Fig.5 zeigt einen Interpolator 10 mit Volladdierern 16,17, einem Register 18, in das das Ergebnis der Interpolation eingegeben wird, Verzögerungsschaltungen 19—24 und Schalteinrichtungen bzw. Schaltern 25—32 zum Steuern von Verzögerungszeiten, die die weiter unten angegebenen Gewichtungskoeffizienten ändern. Die Interpolationsgleichung lautet:

yV, _{+ 1}= W(Ta- N₁)+ M,

triebes verwendete Wert.

N, . ι = der Wert, der durch die Interpolation erhalten wird, und der bei dem nächsten Synthelisierbetrieb verwendet wird. -, VV = Gewichtskoeffizient.

mit
Ta

= Zielwert, der Wert, der in das Register

eingegeben ist,
= der gerade während des Synthctisierbe-Beim Interpolieren des Zeitintervall* von 20 ms mit acht Unterteilungen sind erforderlich '/» zum Erhalten des ersten Inicrpolalionswcrtes. 7, für den nächsten In-Ki tcrpolalionswerl und daran anschließend V«. V₄, '/.,, '/.· liikI'/,. . .

In dieser Schaltung werden die Parameter seriell einzeln nacheinander interpoliert. Zunächst wird eine Differenz zwischen dem Zielwert im Register 9 und dem r, vorliegenden Wert im Register 18 durch den Volladclicrcr 16 berechnet. Die Kombinaiitsn der Verzögmingsschaltungen 19—21 und der Schalleinrichtungen 25-28 erreicht Gcwichtungskocffizienten ¹A, bis '/,. Das Ausgangssignal des Volladdierers 16 und das Ausgangssignai der Verzögerungsschaltung(en) wird dem Volladdicrer 17 zugeführt, wo ein neuer Interpolationswert erhalten wird. Die Kombination der Verzögerungsschaltungen 22-24 und der Schalteinrichtungen 29-32 hält einen Maschinenzyklus konstant. Die so erhaltenen Interpolationswerte werden der Synthetisierbetnebsschaliung 11 zugeführt. Die Synthetisierbetriebsschaltung 11 führt einen vorgegebenen Synthetisierbetrieb alle 125 μ5 durch. Der Grund, weshalb 125 μ5 gewählt ist, ist, daß zum Synthetisieren der Sprache im Frequenzband bis zu 4 kHz die Abtasttheorie die Proben zweimal im Frequenzband erfordert. Folglich werden die Synthetisierbetriebe 20mal in 2,5 ms durchgeführt unter Verwendung der gleichen PARCOR-Koeffizienten. Das so erhaltene Ergebnis des Synthetisierbetriebes wird einer D/A-Umscr/.ung zur Umwandlung in Sprache unterworfen. Durch die obige Interpolation ändern sich die PARCOR-Koeffizienten schrittweise, so daß die Verbindungen bzw. Übergänge zwischen dem Rahmen geglättet werden. Die Schaltung, die die Betriebszeitsteuerung dieser Betriebsschritte steuert, ist der Synthetisierzeitsteuerabschnitt 12, und die Schaltung, die eine Bezugszeitsteuerung für den Synthetisierzeitsteuerabschnitt 12 erreicht, ist der Dehnungs/Kompressions-Zähler 15.

Die Betriebsweise des Dehnungs/Kompressions-Zanlers 15 wird anhand F i g. 6 näher erläutert. Bei der üblichen oder Standard-Synthetisiergeschwindigkeit wird ein Binärcode von beispielsweise 010100. der eine Wiedergabegeschwindigkeit wiedergibt, die durch einen Mikrorechner eingestellt werden soll, in ein Dehnungs/ Kompressions-Datenregister 35 gesetzt. Ein 6-Bit-Zahler 33 zahlt mitteis Takiimpulsen 125 μ5 vorwärts. Wenn der Zählerstand des Zählers 010100 (d. h, 20 im Dezimalsystem) überschreitet, wird ein Vergleicher 34 invertiert zum Rücksetzen des Zählers 33. Dann beginnt der Zähler 33 von neuem zu zählen. Auf diese Weise wird der Dehnungs/Kompressions-Zähler 15 mit der Standard-Synthetisiergeschwindigkeit (125 us) rückgesetzt, wenn er 20mal zählt mittels dem 125^s-Taktimpuls. Er erzeugt einen Ausgangsimpuls alle 2,5 ms zur Übertragung zum Synthetisierzeitsteuerabschnitt 12.

F i g. 7 zeigt in einem Blockschaltbild Einzelheiten der Synthetisierzeitsteuerung 12, nämlich eine Signalleitung 36 von dem Dehnungs/Kompressions-Zähler 15, einen 3-Bit-Zähler 37 zum Frequenzteilen des Ausgangssignals vom Dehnungs/Kompressions-Zähler 15 um einen Faktor 8, eine Steuersignallcitung 38 zum Register 9, eine Logikanordnung 39, die ein Programm zum Steu-

ei η lies Interpolators 10 enthält, cine Inlerpolalor-Sleueisignalleituiig 40, eine Logikanordnung 41 /um Steuern der Synthetisierbetriebsseliiiltung 11, eine Steuerleitung 42 zur Synthetisierbelricbssehaltung 11. Der Zahler 37 überträgt einen 20-ms-lnipuls zum Register 9, wenn ei acht Impulse für die 2,5-ms-lntcrpolation empfängt. Bei Empfang des Impulses ruft das Register 9 die Parameter vom Sprachspeicher 8 ab. Die Logikanordnungen 39 und 40 bilden verschiedene Steuersignale auf der Grundlage des Interpolationsimpulses und steuern den Imerpolator 10 bzw. die Synthetisierbetriebsschaltung mittels der Steuersignale.

F i g. 8 zeigt ein Beispiel eines Zeitplans des Sprachsynthesizers gemäß F i g. 4. Wie dargestellt, ist im Standardzustand, in dem keine Dehnung oder Kompression vorliegt, der Rahmen (die Periode, die durch die natürliche Sprache begrenzt ist; und der lineare Vorhersagekoeffizient wird pro abgeschnittener oder begrenzter Periode forlgeschrieben) so gewählt, daß er 20 ms beträgt (F i g. 8a). Ein Rahmen besteht aus acht Interpolationsrahmen mit jeweils 2,5 ms (Fig. 8). Die Synthetisierbclriebe werden 20mal innerhalb der Interpolationsperiode von 2,5 ms durchgeführt unter Verwenden der linearen Vorhersagekoeffizienten (F i g. 8c).

Der Betrieb des Sprachsynthesizers wird für den Fall, daß die Synthetisiergeschwindigkeit auf die Hälfte der Standardgeschwindigkeit eingestellt ist, anhand der F ig.8d-8f erläutert.

Ein Digitalcode 101000 wird zunächst in das Dehnungs/Kompressions-Register 35 gesetzt. Der Zähler 33 jo zählt vorwärts unter Steuerung durch den 125^s-Takt, bis der Inhalt des Zählers 33 101000 (40 im Dezimalsystem) erreicht. Bei 101000 wird der Zähler 33 rückgesetzi. Auf diese Weise wird, wenn der Dehnungs/Kompressions-Zähler 15 40 Zyklen unter Steuerung durch r> den 125^s-Takt zählt, durch ihn ein Ausgangsimpuls erzeugt zur Übertragung zum Synthetisierzeitsteuerabschnitt 12. Diese Betriebszeitperiode entspricht einer Interpolationsperiode von 5ms (Fig.8e). Wenn der Zähler acht Ausgangsimpulse erzeugt, wird ein neuer Sprachparameter von dem Sprachspeicher 8 in das Register 9 eingegeben. Dieses Zeitintervall entspricht einem Rahmen, und damit 40 ms. Auf diese Weise wird die Sprachsynthetisierung durch Abrufen der Parameter vom Sprachspeicher 8 alle 40 ms erreicht. Obwohl die v> Sprachparameter von einem Rahmen mit 20 ms abgetastet ist, der von der ursprünglichen Sprache abgenommen ist, wird die Sprachsynthese unter Verwendung des Parameters alle 40 ms durchgeführt. Folglich ist die Ab spiel- bzw. Wiedergabegeschwindigkeit '/₂ (der Stan- ^r,o dardgeschwindigkeit). Dieses Verfahren ist vorteilhaft gegenüber dem herkömmlichen, darin, daß der Signalverlauf der wiedergegebenen Sprache analog der natürlichen Sprache ist, und daß die Natur bzw. Art der wiedergegebenen Sprache natürlich ist. Die Sprachparamc- v> ter sind diejenigen des erläuterten Stimm-K.anal-Modells. Wenn die Sprache langsam synthetisiert wird, wird die Anzahl der Synthetisierbetriebe lediglich erhöht, sind jedoch die Betriebszeiten und die Sprachparametcr die gleichen wie bei der schnellen Sprachsynthelisic- &u rung. Folglich ist die Frequenzcharakteristik, d. h. die Charakteristik des Stimm-Kanals des Digitalfilters, die durch den Betrieb erhalten wird, unverändert. Folglich ist die wiedergegebene Sprache außerordentlich ähnlich der Sprache eines langsam sprechenden Menschen. t,5

Wegen der erwähnten Interpolation ist, selbst wenn die Synthetisierzeit lang ist, die Zeitperiode, in der der gleiche Sprachparameter verwendet ist, kurz. Bei dem vorliegenden Auslührungsbeispicl beträgt sie, da der Interpolationsrahmen bei der .Standardgeschwindigkeit 2,5 ms beträgt, lediglich 5 ms, selbst wenn diese Zeit aul das Doppelte verlängert wird. Ks zeigt sich, daß dies unter 10 ms liegt, und daß die geglättete oder sanfte Sprache sichergestellt ist. Das heißt, unter 20 ms ist es notwendig, die Glilttiing der wiedergegebenen Sprache sicherzustellen. Wenn die Interpolation nicht verwendet ist. beträgt die Zeit, die den gleichen Parameter verwendet, 40 ms, wodurch sich eine schlechte Verbindung der Töne bzw. ein schlechter Tonübergang ergibt. Wenn jedoch die Interpolation mit einem Zeitintervall von 10 ms oder weniger durchgeführt ist, beträgt diese Zeit 20 ms oder weniger, selbst wenn die Synthetisierzeit verdoppelt wird. Als Ergebnis ist die wiedergegebene Sprache geglättet.

Hierzu 5 Blatt Zeichnungen

Claims

Patentensprüche:
1. Sprachsynthesizer mit

a) einer Speichereinrichtung, die Sprachparameter speichert, die enthalten: mehrere lineare Vorhersagekoeffizienten, die von segmentförmigen Signalverläufen abgetastet sind, die der natürlichen Sprache bei einem gegebenen Zeit- ι ο Intervall entnommen sind, eine Stimmhaft/ Stimmlos-Beurteilungsinformation, eine Tonhöheninformation und eine Lautstärkeinformation;

b) einer Sprachwiederherstelleinrichtung einschließlich eines mehrstufigen Digitalfilters, die die aus der Speichereinrichtung ausgelesenen Sprachparameter empfängt und die Koeffizienten des mehrstufigen Digitalfilters bei jedem Rahmenintervall auf der Grundlage der linearen Vorhersagekoeffizienten zur Sprachsynthese fortschreibt;

c) einem Digital-Analog-Wandler, der das Ausgangssignal der Sprachwiederherstelleinrichtung empfängt und ein digitales Sprachsignal, das von der Sprachwiederherstelleinrichtung synthetisiert wurde, in ein analoges Sprachsignal wandelt; und

d) einem Interpolator,

.SO

gekennzeichnet durch