DE2519483A1

DE2519483A1 - Verfahren und anordnung zur sprachsynthese

Info

Publication number: DE2519483A1
Application number: DE19752519483
Authority: DE
Inventors: Forrest Shrago Mozer
Original assignee: Individual
Current assignee: Individual
Priority date: 1974-11-20
Filing date: 1975-05-02
Publication date: 1976-05-26
Also published as: JPS564196A; JPS5159207A; JPS564195A; JPS564197A; JPS564689A; JPS564193A; JPS5731158B2; JPS5735479B2; JPS564194A; JPS5737079B2; JPS5654640B2; JPS5731159B2

Description

Verfahren und Anordnung zur Sprachsynthese Priorität: 20. November 1974 - USA - Serial No. 525 388 Zusammenfassung Es wird ein Verfahren und eine Anordnung zur Synthese von Sprache und anderen komplexen Schwingungsformen beschrieben, bei dem digitale Techniken dazu verwendet werden, den Informationsgehalt der Sprache zu digitalisieren, diese digitalen Daten zu komprimieren und zu speichern, und dann selektiv die gespeicherte Information abzurufen, um verständliche Sprache zu erzeugen.
Hintergrund der Erfindung Die Erfindung betrifft die Sprachsynthese und insbesondere ein Verfahren zur Synthese von Sprache und anderen komplexen Schwingungsformen unter Verwendung von grundsätzlich digitalen Techniken.
Anordnungen zur Synthese von Sprache müssen in der Lage sein, alle Klänge der interessierenden Sprache zu erzeugen. Abgesehen von Diphthongen, Affrikatae und kleineren Varianten gibt es in der amerikanischen Alltagssprache 34 solche Klänge oder Phoneme. Beispiele solcher Phoneme, die Phoneme /n/ und /s/ sind in Fig. 1 und 2 dargestellt, wo die Amplitude des Sprachsignals in Abhängigkeit von der Zeit dargestellt ist. Diese beiden Schwingungsformen unterscheiden sich darin, daß das Phonem /n/ eine quasi periodische Struktur hat mit einer Periode von etwa 10 Millisekunden, während das Phonem /s/ keine solche Struktur hat. Das liegt daran, daß das Phonem /n/ durch Erregung der Stimmbänder erzeugt wird, während /s/ durch die Passage von Luft durch den Kehlkopf erzeugt wird, ohne daß die Stimmbänder erregt werden. Phoneme können also entweder stimmhaft sein ( d.h. durch Erregung der Stimmbänder erzeugt) oder stimmlos (keine solche Erregung) und die Schwingungsform von stimmhaften Phonemen ist quasi periodisch. Diese, dem Stimmton entsprechende Periode ist 50, daß männliche Stimmen im allgemeinen eine lange Periode, entsprechend einem tiefen Stimmton haben, während weibliche Stimmen im allgemeinen einen höheren Stimmton haben.
Zusätzlich zu dem erwähnten Unterschied stimmhaft-stimmlos, können Phoneme noch auf andere Weise klassifiziert werden, wie es beispielsweise in Tabelle 1 für die Phoneme der amerikanischen Alltagssprache geschehen ist. Die Vokale, stimmhaften Reibelaute, stimmhaften Verschlußlaute, Nasalkonsonanten, Gleitlaute und Halbvokale sind alle stimmhaft, während die stimmiosen Reibelaute und stirnmlosen Verschlußlaute eben stimmlos sind. Die Reibelaute werden durch eine inkohärente Rauschanregung des Stimmtrakts erzeugt, indem dafür gesorgt wird, daß turbulente Luft durch eine Engstelle strömt. Um Verschlußlaute zu erzeugen, wird der Stimmtrakt an irgendeinem Punkt vollständig geschlossen und die Lungen bauen Druck auf, der plötzlich freigelassen wird, indem der Stimmtrakt geöffnet wird.
Tabelle 1 Phoneme der amerikanischen Alltags sprache Vokale /i/ wie in "three" /I/ wie in /e/ wie in "hate" /ae/ wie in wie wie in 11father11 wie in "all" wie wie in "obey" /v/ wie in "foot" /u/ wie in boot wie in "up" wie in "bird" Stimmlose Reibelaute /f/ wie in "for" /e/ wie in "thin" wie wie in "see" /S/ wie in "she" /h/ wie in ehe Stimmhafte Reibelaute /v/ wie in "vote" wie wie in "then" wie wie in "zoo" wie in "azure" Stimmlose Verschlußlaute wie wie in "play" /t/ wie in /k/ wie in "key" Stimmhafte Verschlußl aute /b/ wie in "be" /d/ wie in "day" wie wie in Nasale Konsonanten /m/ wie in "me" wie wie in wie in "sing" Gleitlaute und Halbvokale /w/ wie in "we" wie wie in "you" /r/ wie in "read" /1/ wie in "let" Phoneme können auf andere Weise gekennzeichnet werden als durch graphische Darstellung des zeitlichen Verlaufs gemäß Fig. 1 und 2. Beispielsweise kann ein Segment des zeitlichen Verlaufs nach Fourier analysiert werden, so daß ein Energiespektrum entsteht, d.h. eine graphische Darstellung der Signalamplitude in Abhängigkeit von der Frequenz. Ein solches Energiespektrum für das Phonem/u/ wie im englischen Wort "to" ist in Fig. 3 dargestellt.
Die Bedeutung einer solchen graphischen Darstellung liegt darin, daß die Schwingungsform, die durch Überlagerung vieler Sinusschwingungen unterschiedlicher Frequenzen erzeugt wird, von denen jede die in Fig. 3 bei der betreffenden Frequenz angegebene Amplitude hat, die zeitliche Struktur der anfänglichen Schwingungsform haben würde. Aus dem Energiespektrum nach Fig. 3 ist zu erkennen, daß gewisse Frequenzen oder Frequenzbänder größere Amplituden als andere haben. Das unterste dieser Bänder, in der Nähe einer Frequenz von 100Hz ist dem Stimmton der männlichen Stimme assoziiert, die diesen Klang erzeugte. Die höheren Frequenz spitzen, nahe 3002 1000 bzw. 2300 Hzs liefern die Information, die dieses Phonem von allen anderen unterscheidet. Diese Frequenzen, die als erste, zweite und dritte Formante bezeichnet werden, sind deshalb die Variablen, die sich mit der Orientierung der Lippen, der Zunge, des Nasenkanals usw.
ändern, um eine Kette von miteinander verbundenen Phonemen zu erzeugen, die menschliche Sprache repräsentieren.
Die bisherige Technik der Sprachsynthese ist in dem kürzlich erschienenen Buch von Flanagan "Speech Analysis, Synthesis, and Preception" Springer-Verlag 1972 beschrieben. Zwei der Hauptziele dieser Arbeit waren, die Spracherzeugungs- und Erkennungs-Prozesse zu verstehen, und Syntheseanordnungen mit extrem großen Vokabularien zu entwickeln. Während dieser Arbeit wurde erkannt, daß die als einzelne wichtigste Forderung an eine verständliche Sprach synthese darin liegt, daß die richtigen Formantfrequenzen der erzeugten Phoneme erzeugt werden. Ältere und neuere Syntheseanordnungen arbeiten deshalb in der Weise, daß die Formantfrequenzen auf folgende Weise erzeugt werden. Je nach dem interessierenden Phonem wird eine stimmhafte oder stimmlose Anregung auf elektronische Weise hervorgerufen. Die stimmhafte Anregung ist durch ein Energiespektrum gekennzeichnet, das eine untere Grenzfrequenz beim Stimmton hat und eine Energieverteilung, die mit wachsender Frequenz oberhalb des Stimmtons fällt.
Stimmlose Anregung ist gekennzeichnet durch ein breitbandiges Spektrum "weißes Rauschen". Die eine oder andere dieser Schwingungsform wird dann durch eine Reihe von Filtern oder anderen elektronischen Schaltungen geschickt, die dafür sorgen, daß gewisse ausgewählte Frequenzen (die interessierenden Formantfrequenzen) verstärkt werden.
Das resultierende Energiespektrum von stimmhaften Phonemen ist ähnlich dem nach Fig. 3, und, wenn es in einen Laut sprecher eingespielt wird, ergibt sich eine hörbare Repräsentation des interessierenden Phonems. Solche Anordnungen werden allgemein als Vocoder bezeichnet, von denen viele verschiedene Ausführungsformen im Handel erhältlich sind. Andere Vocoder sind in den US Patentschriften 3 102 165 und 3 318 002 beschrieben.
In solchen Anordnungen wird die Formantfrequenzinformation, die dazu erforderlich ist, eine Kette von Phonemen zu ererzeugen, um zusammenhängende Sprache zu erzeugen, im allgemeinen in einem regelrechten Computer gespeichert, der auch die Lautstärke, die Dauer, Unterschiede zwischen stimmhaft und stimmlos usw. steuert. Vorhandene Vocoder sind also in der Lage, sehr große Vokabularien zu erzeugen, sie erfordern jedoch einen vollen Computer und sind nicht in der Lage, auf Abmessungen weniger als 6 mm (0,25 Zoll) miniaturisiert zu werden, wie es bei der Syntheseanordnung nach der Erfindung der Fall ist.
Eines der wichtigen Resultate der Sprachforschung in Verbindung mit Vocodern war die Erkenntnis, daß Phoneme im allgemeinen nicht miteinander verkettet werden können, wie Perlen auf einer Kette um verständliche Sprache zu erzeugen <Flanagan, 1972). Das liegt daran, daß die spracheproduzierenden Organe (Mund, Zunge, Kehle usw) ihre Formen relativ langsam ändern, im Zeitbereich von einigen zehn bis einigen hundert Millisekunden, während des Übergangs von einem Phonem zum nächsten. Die Formantfrequenzen gewöhnlicher Sprache ändern sich deshalb kontinuierlich während der Übergänge, und synthetische Sprache, die diese Eigenschaft nicht zeigt, ist schlecht zu verstehen. Viele Techniken, ein Phonem in ein anderes zu überblenden sind entwickelt worden, vergl. beispielsweise die US-Patentschriften 3 575 555 und 3 588 353.
Rechnergesteuerte Vocoder stechen durch ihre Fähigkeit hervor, große Vokabularien zu erzeugen, weil die Qualität der Steuerung solcher tberblendungsprozesse gut ist.
Zusammenfassung der Erfindung Die Nachteile des Standes der Technik werden durch die Erfindung eines Verfahrens und einer Anordnung zur Durchführung des Verfahrens beseitigt, mit dem beziehungsweise der Sprache oder andere komplexe Schwingungsformen dadurch synthetisiert werden, daß elektrische Signale, die die komplexen Schwingungsformen repräsentieren, zeitlich differenziert werden, die Amplitude der elektrischen Signale zu digitaler Form zeitlich quantisiert wird, selektiv die zeitlich quantisierten Signale nach einer oder mehreren vorgegebenen Techniken komprimiert werden, wobei Teile der zeitlich quantisierten Signale weggelassen werden während Befehlssignale hinsichtlich der benutzten Techniken erzeugt werden, sowohl die komprimierten, zeitlich quantisierten Signale und die Kompressions-Befehlssignale gespeichert werden, und selektiv sowohl die gespeicherten, komprimierten, zeitlich quantisierten Signale als auch die Kompressions-Befehlssignale wieder aufgesucht werden, um gewählte Teile der orginalen komplexen Schwingungsform zu rekonstruieren.
In den bevorzugten Ausführungsformen nehmen die Kompressionstechniken verschiedene Formen an, die näher im Folgenden diskutiert werden. Diese Techniken schließen, zusätzlich zur Bildung der zeitlichen Ableitung und der zeitlichen Quantisierung der Signalinformation, ein, daß Teile der komplexen Schwingungsform innerhalb jeder Periode der Schwingungsform weggelassen werden, d.h. ein Teil der Stimmtonperiode, wo die Schwingungsform Sprache repräsentiert und mehrfache Wiederholungen von ausgewählten Schwingungsformperioden, während andere Perioden weggelassen werden.
Im Falle von Sprach-Schwingungsformen werden gewisse Phoneme detektiert und/oder erzeugt und mehrfach wiederholt, wie auch aus gewissen Phonemen gebildete Silben. Weiterhin wird ein Teil der Sprachinformation selektiv deltamoduliert entsprechend einer künstlichen, noch zu beschreibenden Funktion, die einen Kompressionsiaktor von etwa zwei ermöglicht, während die Sprachverständlichkeit zum großen Teil beibehalten wird.
Im Gegensatz zu den oben beschriebenen Ziten der früheren Sprachsynthese-Forschung, ein unbegrenztes Vokabular zu reproduzieren, ergab sich die Erfindung aus dem Wunsch, eine Sprahsynthese-Anordnung zu entwickeln, die ein begrenztes Vokabular in der Größenordnung von einhundert Worten hat, jedoch eine körperliche Größe von weniger als etwa 6 Millimeter (0,25 Zoll) im Quadrat. Diese außerordentlich geringe körperliche Größe wird dadurch erreicht, daß nur digitale Techniken in der Synthese verwendet werden und die sich ergebende Schaltung auf einen einzigen LSI (large scale integration) elektronischen Schaltkreis derArt aufgebaut wird, die bei der Herstellung von elektronischen Rechnern oder Digitaluhren bekannt ist.
Diese Ziele haben die Verwendung der Vocoder-Technologie ausgeschlossen und ergaben die Entwicklung einer Synthese-Anordnung aufgrund eines völlig neuer-Konzepts. Indem die oben erwähnten, neu entwickelten Kompressionstechniken mit bekannten Kompressionstechniken in einzigartiger Weise kombiniert werden, ist das erfindungsgemäße Verfahren in der Lage, die Information ausreichend für ein solches mehrwortiges Vokabular auf eine einzige LSI-Platte zu komprimieren, ohne daß erhebliche Nachteile hinsichtlich der Verständlichkeit der Original information in Kauf genommen werden.
Kompakte Synthese-Anordnungen gemäß der Erfindung sind in mannigfacher Weise verwendbar. Eine solche Anordnung kann beispielsweise in elektronischen Rechnern dazu dienen, hörbare Resultate zu liefern, ohne daß der Benutzer seine Augen von seiner Aufgabe abwenden mußte. Sie kann auch dazu verwendet werden, Zahlen in anderen Situationen zu liefern, wenn es schwierig ist, ein Meßinstrument abzulesen. Beispielsweise kann die Anordnung auf Anforderung einem Fahrer die Geschwindigkeit seines Wagens nennen, einem Elektroniktechniker die Spannung an irgendeiner Stelle der Schaltung sagen, einem Präzisionsmaschinen-Bedienungsmann die Information nennen, die er zur Fortsetzung seiner Arbeit benötigt usw. Sie kann auch anstelle einer visuellen Anzeige einer elektronischen Uhr verwendet werden. Sie kann auch dazu verwendet werden, verbale Nachrichten unter gewissen Bedingungen zu liefern. Beispiel weise kann sie einem Kraftfahrzeugfahrer sagen, daß seine Feststellbremse angezogen ist, daß die Sitzgurte anzulegen sind usw.. Sie kann auch zur Kommunikation zwischen einem Computer und einem Menschen verwendet werden, oder als Interface zwischen einem Benutzer und irgendeinem Mechanismus, beispielsweise einem Druckknopftelefon, einem Aufzug, einem Geschirrspüler usw. .Sie kann auch in Neuigkeiten oder Spielzeugen wie sprechenden Puppen verwendet werden.
Die obigen Beispiele sind selbstverständlich nur einige wenige für die Verwendung solcher kompakter Einheiten.
Solche Verwendungszwecke waren für bekannte Sprachsyntheseanordnungen mit unbegrenztem Vokabular nicht zugänglich, weil diese zu groß, zu kompliziert und zu teuer sind. Durch die Erfindung wird dagegen ein Verfahren und eine Anordnung verfügbar gemacht, mit der Sprachsynthese auf relativ einfache und billige Weise durchgeführt werden kann, wobei bei der bevorzugten Ausführungsform grundsätzlich digitale Techniken verwendet werden.
Durch die Erfindung soll also ein Verfahren zur Synthese von Sprache verfügbar gemacht werden, nach dem eine kompakte Sprachsynthese-Anordnung hergestellt werden kann.
Weiter soll durch die Erfindung ein Verfahren zur Synthese von Sprache verfügbar gemacht werden, bei dem nur ein einziges oder einige wenige LSI-Elektronikschaltungen oder deren Äquivalente verwendet werden, die jeder Linearabmessungen von etwa 6 mm (1/4 Zoll) auf einer Seite haben.
Ferner soll durch die Erfindung ein Verfahren zur Synthese von Sprache verfügbar gemacht werden, bei dem grundsätzlich digitale statt analoge Techniken verwendet werden.
Ferner soll durch die Erfindung ein Verfahren zur Sprachsynthese verfügbar gemacht werden, bei dem der Informationsgehalt der Phonem-Schwingungsform dadurch komprimiert wird, daß nur ausgewählte Teile dieser Schwingungsform gespeichert werden.
Weiter soll durch die Erfindung ein Verfahren zur Sprachsynthese verfügbar gemacht werden, bei dem Silben betont werden können oder andere Stimmtonvariationen der Sprache, beispielsweise Tonveränderungen, erzeugt werden können.
Weiter soll durch die Erfindung ein Verfahren zur Sprachsynthese verfügbar gemacht werden, bei dem Amplitudenänderungen am Beginn und Ende jedes Wortes sowie Ruheintervalle innerhalb und zwischen Wörtern stimuliert werden können.
Insbesondere soll durch die Erfindung ein Sprachsynthese Verfahren verfügbar gemacht werden, das es ermöglicht, eine Sprachsynthese-Anordnung mit geringen Kosten herzustellen.
Die vorangegangenen und weitere Ziele, Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung in Verbindung mit der Zeichnung; es zeigen: Fig. 1 die Amplitude eines elektrischen Analog-Signals, das das Phonem /n/ repräsentiert, in Abhängigkeit von der Zeit; Fig. 2 ein Fig. 1 entsprechendes Diagramm für das Phonem Fig. 3 das Energiespektrum des Phonems /u/ wie in "two" Fig. 4 graphisch den Prozeß der Digitalisierung von Sprachschwingungsformen durch Präsentation von zwei Stimmtonperioden des Phonems /i/ wie in "three" in Abhängigkeit von der Zeit vor und nach der Digitalisierung; Fig. 5 ein vereinfachtes Blockschaltbild einer Sprachsynthese-Anordnung zur Veranschaulichung des Speicher- und Wiederauffind-Verfahrens nach der Erfindung; Fig. 6 graphisch eine Schwingungsform, die zwei Stimmtonperioden des Phonems /i/ in Abhängigkeit von der Zeit in folgender Reihenfolge: oberste Zeile tror Differenzierung des Schwingungsverlaufs, nach Differenzierung des Schwingungsverlaufs, nach Differenzierung und Ersatz der zweiten Stimmtonperiode durch eine Wiederholung her ersten,sowie nach Differenzierung, wobei die zweite Stimmtonperiode durch eine Wiederholung der ersten ersetzt ist, und Nullen einer halben Periode; Fig. 7 ein Blockschaltbild zur Veranschaulichung des Verfahrens zur Erzeugung der Information im Phonem-, Silben- und Wortspeicher einer Sprachsynthese-Anordnung nach der Erfindung; und Fig. 8 ein Blockschaltbild der Syntheseelektronik einer bevorzugten Ausführungsform der Erfindung.
Das Grundkonzept der Erfindung kann verstanden werden, wenn-die Konstruktion eines elektronischen Aufzeichnungsgerätes betrachtet wird. Gewöhnliche Tonband-Aufzeichnungsgeräte speichern Wellenzüge wie in Fig. 1 und 2 dargestellt auf Magnetband in einem analogen Format. Solche Geräte können nicht in gewünschtem Maße miniaturisiert werden, weil Motoren, Bandantriebe, Magnetband usw. erforderlich sind. Sprache kann jedoch auch in einem elektronischen Speicher aufgezeichnet werden statt auf Band und einige der erwähnten Bauteile können weggelassen werden. Das gewünschte Vokabular kann dann dadurch erzeugt werden, daß selektiv der Inhalt der Speicher in einen Lautsprecher gespielt wird. Da elektronische Speicher binär arbeiten,(es kann in einer gegebenen Zelle nur eine "1" oder "O" gespeichert werden) müssen Schwingungsverläufe, wie sie in Fig. 1 und 2 dargestellt sind, durch ein 1,Digitalisierung1, genanntes Verfahren auf binäre Digitalinformation reduziert werden, ehe sie in einem elektronischen Speicher gespeichert werden können.
Die Speicherung von Information in Digitalform schließt die Codierung dieser Information in der Form ein, daß sie als Zug binärer Bits repräsentiert werden kann. Um Sprache zu digitalisieren oder zu codieren, wobei die Sprache eine komplizierte Schwingungsform mit signifikanter Information bei Frequenzen bis zu etwa 8000 Hz ist, muß der Sprach-Spannungsverlauf in regelmäßigen Intervallen abgefragt werden und ihm eine vorgegebene Anzahl Bits zugeteilt werden, um die Amplitude des Spannungsverlaufs bei jeder Abfragung zu repräsentieren. Der Prozeß, eine sich zeitlich verändernde Schwingungsform abzufragen, wird Digitalisierung genannt. Es ist gezeigt worden, daß die Digitalisierungsfrequenz, d.h. die Abfragerate, doppelt so hoch sein muß wie die höchste interessierende Frequenz, um wilde Schwebungsfrequenzen zu verhindern. Es ist auch gezeigt worden, daß zur Repräsentierung von Sprache mit vernünftiger Genauigkeit eine Digitalisierung von sechs Bit jeder Abfragung erforderlich sein kann, so daß 26 (oder 64) unterschiedliche Amplituden erzielbar sind.
Ein Beispiel für die Digitalisierung eines Sprach-Spannungsverlaufs ist in Fig. 4 gegeben, wo zwei Stimmton-Perioden des Phonems /u/ (wie im englischen Wort "to") zweimal in Abhängigkeit von der Zeit aufgetragen sind. Die obere Kurve 100 ist der ursprüngliche Spannungsverlauf, und die untere Kurve 102 ist deren digitalisierte Repräsentation, die dadurch erhalten worden ist, daß die Amplitude auf einem von 16 diskreten Pegeln in regelmäßigen zeitlichen Intervallen festgehalten wurden Da s6 Pegel verwendet wurden, um die Amplitude des Spannungsverlaufs zu repräsentieren, kann jede der Amplituden durch vier binäre Ziffern repräsentiert werden. Da alle 10-4 Sekunden eine solche Digitalisierung stattfindet, kann jede Sekunde des ursprünglichen Schwingungszuges als eine Kette von 40 00O Bina'rzahlen reprasentiert werdende Die Speicherung von digitalisierter Sprache und anderen komplexen Spannungsverläufen in elektronischen Speichern ist ein gewöhnliches Verfahren, das in Rechnern, Datenübertragungssystemen usw. verwendet wird. Beispielsweise kann eine elektronische Schaltung, die Speicher enthält, in denen die Zahlen von Null bis Neun gespeichert sind, im Handel erworben werden.
Eine einfache Speicherung von digitalisierter Sprache in einem elektronischen Speicher kann nicht dazu verwendet werden, ein Vokabular von 128 Worten auf einem einzigen LSI-Plättchen zu erzeugen, weil der Informationsgehalt von 128 Worten bei weitem zu groß ist, wie das folgende Beispeil illustriert. Um Frequenzen bis zu 7500 Hz aufzuzeichnen, muß die Digitalisierung der Schwingungsform 15 000 mal pro Sekunde erfolgen. Jede Digitalisierung soll wenigstens sechs Bit Amplitudeninformation für vernünftige Verständlichkeit enthalten. Ein typisches Wort von einer halben Sekunde Dauer liefert also 15 000 x 1/2 x6 -45 000 Bit Binärinformation, die im elektronischen Speicher gespeichert werden müssen. Da die Größe eines wirtschaftlichen LSI-Festspeichers kleiner ist als 45 000 Bit, muß der Informationsgehalt gewöhnlicher Sprache um einen Faktor größer als 100 komprimiert werden, um ein Vokabular von 128 Worten auf einem einzigen LSI-Plättchen zu speichern.
Gemäß der Erfindung ist dieser Kompressionsfaktor durch Untersuchungen der Informationskompression auf einem Rechner erreicht worden, und eine Sprachsynthese-Anordnung mit dem Vokabular von 128 Worten gemäß Tabelle 2 ist aus integrierten Logikschaltungen und Speichern aufgebaut worden. Dieses Vokabular ist lediglich als Prototyp einer detailierteren Sprachsyntheseanordnung zu betrachten, die nach der Erfindung aufgebaut ist: Tabelle 2 Vokabular der Sprachsynthese-Anordnunq Die Zahlen "O" - 99", einschließlich "plus", "minus", "times", "over", "equals", "point", "overflow", "volts", "ohms", "amps", "dc", "ac", "and", "seconds", "down", "up", "left", "pounds", "ounces" "dollars", "cents", "centimeters","meters", "miles", "miles per kurze Ruhe- lange Ruhehour", pause pause Ein Blockschaltbild der bevorzugten Ausführungsform einer Sprachsynthese-Anordnung nach der Erfindung ist in Fig. 5 dargestellt. Die Programmierung der Elemente dieses Blockschaltbildes werden im einzelnen in Verbindung mit Fig. 7 besprochen. Der Phonem-Speicher 104 speichert die Digitalinformation, die zu den komprimierten Schwingungsverläufen gehört und enthält 24 576 Bit Information. Der Silbenspeicher 106 enthält Informationssignale hinsichtlich der Lage der für den speziellen, zu erzeugenden Klang interessierenden komprimierten Wellenform im Phonem-Speicher 104, und liefert auch die notwendige Information zur Rekonstruktion der Sprache aus der komprimierten Information im Phonemspeicher 104. Seine Größe beträgt 4096 Bit. Der Wortspeicher 108, dessen Größe 2 048 Bit beträgt, enthält Signale, die die Lage von Informationssignalen für den Phonem-Speicher 104 im Silbenspeicher 106 repräsentieren, um Silben zu konstruieren, die das interessierende Wort ausmachen.
Ein Wort wird dadurch ausgewählt, daß eine vorgegebene Binäradresse auf die sieben Adreß-Leitungen 110 gegeben wird. Dieses Wort wird dann elektronisch konstruiert, wenn die Abfrage-Impuls-Leitung 112 elektrisch gepulst wird, indem die Information im Wortspeicher 108 dazu verwendet wird, die Adressen der Silben-Information im Silbenspeicher 106 zu lokalisieren und daraufhin diese Information dazu zu verwenden, die Adresse der komprimierten Spannungsverläufe im Phonem-Speicher 104 zu lokalisieren und schließlich die Sprachschwingungsform aus den komprimierten Daten und den Rekonstruktionsbefehlen, die im Silbenspeicher 106 gespeichert sind, zu rekonstruieren. Der Digitalausgang vom Phonem-Speicher 104 wird einer Delta-Modulations-Decodierschaltung 184 zugeführt und von dort über einen Verstärker 190 zu einem Lautsprecher 192. Das Blockschaltbild nach Fig. 5 soll nur die Grundfunktionen der Syntheseanordnung nach der Erfindung illustrieren; eine genauere Beschreibung wird in Verbindung mit Fig. 8 gegeben.
Gruppen von Wörtern können in der Sprach-Synthese-Anordnung zu Sätzen kombiniert werden, indem ein 2048 Bit-Satzspeicher 114 über eine Anzahl externer Adressenleitungen 110 adressiert wird, indem sieben zweipolige Umschalter 116 elektronisch in die in Fig. 5 dargestellte Konfiguration eingesetzt werden.
Die gewählten Inhalte des Satz speichers 114 liefern dann Adressen von Wörtern zum Wortspeicher 108. Auf diese Weise kann die Synthese-Anordnung von eins bis vierzig zählen und auch so betrieben, daß sie wahlweise solche Dinge sagt wie: "3.5 + 7 - 6 = 4.5," "1942 over .0001 w overflow," "2 x 4 , 8," "4.2 volts dc," "93 ohms," t'17 amps ac," "11:37 and 40 seconds, 11:37 and 50 seconds," "3 up, 2 left, 4 down," "6 pounds 15 ounces equals 8 dollars and 76 cents," 55 miles per hour," and "2 miles equals 3218 meters, equals 321869 centimeters," zum Beispiel.
Kompressionstechniken Wie oben beschrieben ist der Grundgehalt der Speicher 108, 106 und 104 das Endresultat gewisser Sprach-Kompressions-Techniken. Die Theorien dieser Techniken sollen jetzt beschrieben werden. In der Praxis wird gewisse grundlegende Sprachinformation, die dazu erforderlich ist, das Vokabular von 128 Worten zu erzeugen, in ein Mikrophon mit nahezu monotoner Sprache gesprochen, um analoge elektrische Signale zu erzeugen, die die grundlegende Sprachinformation repräsentieren. Diese Analogsignale werden anschließend nach der Zeit differenziert. Diese Information wird dann in einem Rechner gespeichert und selektiv wieder aufgesucht, während die Sprachsynthese-Programmierung stattfindet.
Differenzierunq Der Zweck des Differenzierungsprozesses soll jetzt erläutert werden. Gemäß Fig. 3 fällt die Energie eines typischen.
Sprach-Schwingungsverlaufs mit wachsender Frequenz. Um die benötigten hörfrequenten Komponenten des Sprachverlaufs (bis beispielsweise 5000 Hz) beizubehalten, muß die Amplitude des Schwingungsverlaufs relativ sehr genau digitalisiert werden, indem eine relativ große Anzahl Bit pro Digital sierung verwendet wird. Es wurde festgestellt, daß Digitalisierung gewöhnlicher Sprache zu einer Genauigkeit von 6 Bit Klang einer Qualität liefert, die der entspricht, die von anderen Kompressionstechniken erhalten wird.
Wenn der Schallverlauf jedoch elektronisch differenziert wird, ehe er digitalisiert wird, kann die gleiche Hochfrequenzinformation durch die Verwendung von weniger Bits pro Digitalisierung gespeichert werden. Die Resultate der Differenzierung eines Schallverlaufs der Sprache sind in Fig. 6 dargestellt, von der die obere Kurve 118 zwci Stimmtonperioden von je etwa 10 Millisekunden Dauer enthält, und zwar der digitalisierten Schwingungsform des Phonems /u/ wie im englischen Wort "to" in Abhängigkeit von der Zeit. In der zweiten Kurve 120 ist die digitalisierte Repräsentation der Ableitung der Schwingungsform 118 auf getragen, und es ist zu erkennen, daß der Prozeß, die Ableitung zu nehmen, die Amplituden der höherfrequenten Komponenten betont. Übertragen auf das Energiespektrum, wie es in Fig. 3 veranschaulicht ist, hat also die Ableitung ein flacheres Energiespektrum als der ursprüngliche Schallverlauf. Die höherfrequenten Komponenten können also durch die Verwendung von weniger Bits pro Digitalisierung erhalten werden, wenn die Ableitung des Schallverlaufs digitalisiert wird statt daß der ursprüngliche Schallverlauf digitalisiert wird.
Es wurde estgestellt, daß die Qualität eines mit 6 Bit (64 Pegel) digitalisierten Sprachverlaufs ähnlich der eines mit 4 Bit tl6 Pegel) differenzierten Spannungsverlaufs ist. Es wird also ein Kompressionsfaktor von 1,5 dadurch erreicht, daß die erste Ableitung des interessierenden Spannuncrsverlaufs gespeichert wird.
Auf einem Rechner wurden Versuche durchgeführt, um zu bestimmen, ob Ableitungen höher als die erste eine stärkere Kompression für einen bestimmten Pegel der Verständlichkeit ergeben, mit negativem Resultat. Das liegt daran, daß das Energiespektrum gewöhnlicher Sprache grob mit dem Inversen der ersten Potenz der Frequenz fällt, und somit ist das flachste, und damit optimalste Energiespektrum dasjenige der ersten Ableitung.
Im Prinzip sollte die von der Sprachsynthese-Anordnung rekonstruierte Sprache einmal integriert werden, ehe sie zum Lautsprecher kommt, um die Bildung der Ableitung des ursprünglichen Schallverlaufs zu kompensieren. Das geschieht in der Sprachsynthese-Anordnung gemäß dem Blockdiagramm in Fig. 5 nicht, weil die im folgenden beschriebene Delta-Modulations-Kompressionstechnik effektiv diese Integrierung durchführt.
Diqitalisierung Wie oben erwähnt ist muß die differenzierte Schwingungsform digitalisiert werden, um Daten zu erhalten, die zur Speicherung geeignet sind. Das wird dadurch erreicht, daß die Schwingungsform in regelmäßigen Intervallen längs der Zeitachse abgefragt wird, um Daten zu erzeugen, die die Amplitude über der Zeitspanne der Schwingungsform ausdrücken. Die so erzeugten Daten werden dann in digitaler Form ausgedrückt.
Die Digitalisierungsfrequenz reflektiert die Menge der erzeugten Daten. Es trifft zu, daß, je niedriger die Digitalisierungsfrequenz istw umso weniger Information zur Speicherung erzeugt wird, es besteht jedoch eine Wechselbeziehung zwischen diesem Ziel und der Qualität und Verständlichkeit der zu synthetisierenden Sprache. Speziell ist bekannt, daß die Digitalisierungsfrequenz doppelt so groß sein muß wie die höchste interessierende Frequenz, um zu verhindern, daß wilde Schwebungsfrequenzen in den erzeugten Daten erscheinen. Für beste Ergebnisse wird beim erfindungsgemäßen Verfahren nominell eine Digitalisierungsfrequenz von 10 000 Hz in Betracht gezogen, andere Frequenzen können jedoch ebenfalls verwendet werden.
Der Umfang der weiteren Informationskompression, die erforderlich ist, um ein gegebenes Vokabular aus einer gegebenden Menge an gespeicherter Information zu erzeugen, hängt von dem gewünschten Vokabular ab und der verfügbaren Speicherung. Wenn der Umfang des erforderlichen Vokabulars wächst, oder der verfügbare Speicherraum kleiner wird, verringert sich die Qualität und Verständlichkeit der resultieenden Sprache. Die Erzeugung eines gegebenen Vokabulars erfordert also Kompromisse und eine Auswahl unter den verschiedenen Kompressionstechniken, um die erforderliche Informationskompression zu erreichen, während die Qualität und Verständlichkeit des Schalls maximiert wird. Dieser subjektive Prozeß ist auf einem Rechner durchgeführt worden, in den die beschriebenen, digitalisierten Sprachschwingungsformen eingegeben worden waren. Der Rechner wurde dann dazu verwendet, die Resultate verschiedener Kompressionstechniken zu erzeugen und die Betriebsweise der Sprachsynthese-Anordnung zu simulieren, um Sprache zu erzeugen, deren Qualität und Verständlichkeit laufend bewertet wurde, während die komprimierte Information konstruiert wurde, die die Prototyp-Festwertspeicher bildete.
Auf diese Weise wurden gewisse allgemeine Regeln hinsichtlich der Verschlechterung der Verständlichkeit für verschiedene Arten und Ausmaße der Kompression gewonnen. Diese Kompressions-Richtlinien werden im folgenden beschrieben, es ist jedoch zu betonen, daß eine optimale Kombination des Kompressionsschemas nach der Erfindung für irgendein anderes Vokabular oder eine andere Informationsspeichergröße in der Weise zu entwickeln ist, daß die Resultate verschiedener Kompressionsniveaus angehört werden und subJektive Beurteilungen hinsichtlich der Qualität des Schalls und der verschiedenen Möglichkeiten weiterer Kompression vorgenommen werden.
Mehrfache Verwendung von Phonemen oder Phonemgruppen bei der Konstruktion von Wärtern Wie oben bereits erwähnt wurde ist es nicht möglich, verständliche Sprache dadurch zu erzeugen, daß die vierunddreißig Phoneme der amerikanischen Alltagssprache in verschiedener Weise kombiniert werden, um die interessierenden Worter zu erzeugen, weil cier Übergang von einem Phonem zum nächsten im allgemeinen für die Sprachverständlichkeit wichtig ist. Das gilt jedoch nicht für alle Phoneme oder Phonemgruppen. Beispielsweise haben Versuche gezeigt, daß das Phonem /n/ verständlich In irgendein anderes Phonem übergeht, ohne daß spezielle Vorkehrungen erforderlich sind. Es ist deshalb ein einzIges Phonem /n/ im Phonemspeicher 104 der Sprachsynthese-Anordnung nach Fig. 5 gespeichert worden und wird auch an den 87 Steilen verwendet, an denen dieses Phonem in dem Vokabular nach Tabelle 2 erscheint. In ähnlicher Weise wurde festgestellt, daß das Phonem /s/ gut in irgendein anderes Phonem übergeht, und deshalb erzeugt ein einziges Phonem /s/ im Phonemspeicher 104 diesen Klang an den 82 Stellen, an denen es im Vokabular in Tabelle 2 erscheint.
Als Gegenbeispiel können die Phoneme /r/ und /i/(wie im englischen ort ihre") nicht ohne irgendeine Form der Überblendung nebeneinander gesetzt werden, um den letzten Teil des Wortes "three" in verständlicher Weise zu erzeugen. Das liegt daran, daß /r/ relativ niederfrequente Formanten hat, während /i/ hochfrequente Formanten hat, so daß der während der endlichen Zeit erzeugte Klang, wenn die spracherzeugenden Mechanismen ihre Form von der zur Erzeugung des einen Phonems zu der des anderen ändern, für die Verständlichkeit des Wortes ausschlaggebend ist.
Aus diesem Grunde ist das Phonempaar /r/ und /i/ vom gesprochenen Wort "three" erzeugt und im Phonemspeicher 104 als Phonemgruppe gespeichert worden, die den Übergang oder die Überblendung des ersteren Phonems in das letztere einschließt.
Andere Beispiele von Phonemgruppen, die zusammen mit ihrem natürlichen Übergang gespeichert werden müssen, sind die Diphthonge, von denen jeder aus einem Phonempaar besteht.
Beispielsweise besteht der Laut /ai/ im englischen Wort "five" aus den beiden Phonemen /a/ (wie im englischen Wort "father") und /i/ (wie in "three") zusammen mit dem Übergang des einen in das andere. Dieser Diphthong ist deshalb im Phonemspeicher 104 als eine Phonemgruppe gespeichert worden, die aus dem gesprochenen Wort "five" erzeugt wurde.
Das Ausmaß, zu dem Phoneme miteinander mit oder ohne Überblendung verbunden werden können, ist in der folgenden Tabelle 3 dargestellt, in der die Phoneme oder Phonemgruppen aufgelistet sind, die im Prototyp der Sprachsynthese-Anordnung gespeichert sind, zusammen mit den Worten, in denen sie erscheinen: Tabelle 3 Verwendung von Phonemen oder Phonemgruppen bei der Konstruktion von Wörtern Laut Stelle, an der der Laut verwendet wird "ou" aus hour down, hour, dollars, pounds, ounces "one" 1, 7, 9, 10, 11, 20, teen, plus, minus, point, and, seconds down, cents, pounds, ounces "t" 2, 8, 10, 12, 20, teen, times, point, volts, seconds, left, cents "00" aus "two" 2 "th" aus "three" 3, thir "ree" aus "three" 3, 20, teen, DC, meters "f" 4, 5, fif, flow, left "our" aus four" 4 "ive" aus "five" 5 "s" 6, 7, plus, minus, times, equals, volts, ohms, amps, C, seconds, miles, meters, dollars, cents, pounds, ounces "i" aus "six" 6, fif, centimeters "k" 6, equals, seconds "ev" aus "seven" 7, 10, 11, seconds, left, cents "eight". aus "eight" 8, A "i" aus "nine" 9, minus, times, miles "el" aus "eleven" 11 "we" aus "twelve" 12 "elve" aus "twelve" 12 "ir" aus "thirteen" thir "we" aus "twenty" 20 plus, point, amps, up, per, pounds "1" aus "plus" plus, equals, flow, left, miles, dollars minus, times, ohms, amps, miles, meters ounces "u" aus "minus" minus "im" aus "times" times "ver" aus "over" over, per, meters, dollars "ua" aus "equals" equals "oi" aus "point" point "vol" aus "volts" volts "o" aus "ohms" ohms, o, over, flow "a" aus "and" amps, and D, D, and, down, meters, dollars, pounds "u" aus "up" up "il" aus "miles" miles "ou" aus "pounds" pounds Da die fünfunddreißig Phoneme oder Phonemgruppen dieser Tabelle in etwa einhundertvierzig unterschiedlichen Stellen des Prototyp-Vokabulars verwendet werden, wird ein Kompressionsfaktor von etwa 4 durch die mehrfache Verwendung von Phonemen oder Phonemgruppen beim Aufbau von Wörtern erreicht.
Die Dauer eines bestimmten Phonems in unterschiedlichen Wörtern kann sehr unterschiedlich sein. Beispielsweise dauert "oo"0 in "two" normalerweise merklich länger als der gleiche Laut in "to". Um solche Differenzen zu berücksichtigen wird die Dauer eines Phonems oder einer Phonemgruppe in einem bestimmten Wort durch Information gesteuert, die im Silbenspeicher 106 nach Fig. 5 enthalten ist, wie noch in einem späteren Abschnitt beschrieben wird.
Mehrfache Verwendung von Silben Das Vokabular der Sprachsynthese-Anordnung nach der Erfindung ist in dem Sinne redundant, als viele Silben oder Wörter an mehreren Stellen erscheinen. Beispielsweise erscheint das Wort "over" sowohl in "over" als in "overflow". Die Silbe "teen" erscheint in allen Zahlen von 13 bis 19.
Um solche Duplikatfälle auszunutzen, sind alle Wörter des Prototyp-Vokabulars als zweisilbig definiert, wobei der Ausdruck "Silbe" im vorliegenden Zusammenhang sich von dem gewöhnlichen Gebrauch unterscheidet. Das Wort "overflow" besteht aus den beiden Silben "over" und "flow", während das Wort "over" aus den Silben "over" und einer Ruhepause besteht. In gleicher Weise besteht das Wort "thirteen" aus den Silben "thir" und "teen". Auf diese Weise können die Silben 0, 1, 2, 3, 4, 5, 6, 7, S, 9, 10, 11, 12, thir, teen, fif, ai, 20, 30, 40, 50, 60, 70, 80 und 90 paarweise kombiniert werden, um alle Zahlen von O bis 99 in englischer Sprache zu erzeugen.
Es sind vierundfünfzig Silben und einhundertachtundzwanzig Wörter im Prototyp der Sprachsynthese-Anordnung vorhanden.
Die mittlere Silbe wird also 2,4 mal verwendet, und es ergibt sich ein Kompressionsfaktor von etwa 2,4 aus der mehrfachen Verwendung von Silben. Um die beschriebene mehrfache Verwendung von Silben auszuführen, enthält der Wortspeicher 108 im Blockschaltbild Fig. 5 zwei Eingänge für jedes Wort, die die Lagen der beiden Silben im Silbenspeicher 106 angeben, die das Wort bilden.
Wiederholung von Stimmton-Perioden von Lauten Das erfindungsgemäße Verfahren verlangt noch eine weitere Kompressionstechnik, bei der nur Teile der erzeugten Daten gespeichert werden, wenn irgendeine oder alle beschriebenen Kompressionstechniken verwendet werden. Ein jeder solcher Datenteil wird über eine sogenannte Wiederholperiode ausgewählt, wobei die Summe der Wiederholperioden eine Dauer hat, die kleiner ist als die Dauer der ursprünglichen Schwingungsform. Die ursprüngliche Dauer kann schließlich wieder erreicht werden, indem die gespeicherte Information anstelle der nicht gespeicherten nochmals verwendet wird.
Wenn diese Technik verwendet wird, kann ein Kompressionsfaktor n erhalten werden, wenn die Wiederholperiode gleich der Stimmton-Periode der zu synthetisierenden stimmhaften Sprache gesetzt wird, jede n-te Stimmton-Periode der Schwingungsform gespeichert wird, und jeder gespeicherte Datenteil n-mal wiedergegeben wird, ehe zum nächsten Teil übergegangen wird, so daß ein Signal der gleichen Dauer erzeugt wird wie das ursprüngliche Phonem. Diese Technik arbeitet ohne merkliche Verschlechterung des Lautes bei n kleiner gleich 3, und es ist gezeigt worden, daß ein befriedigender Laut für n bis zu 10 erzeugt werden kann, wenn auch nicht beabsichtigt ist, aus dem Verfahren Werte größer als 10 für n auszuschließen. Typischerweise sollte n gleich der größtmöglichen ganzen Zahl sein, die eine akzeptable Tonqualität ergeben würde.
Ein Beispiel für die Anwendung dieser Kompressionstechnik ist in Fig. 6 angegeben, in der die Schwingungsform 122 aufgetragen ist, die sich ergibt, wenn die zweite Stimmton-Periode der Schwingungsform 120 durch eine Wiederholung der ersten Stimmton-Periode ersetzt wird. Bei diesem Beispiel ist n - 2 und es wird ein Kompressionsfalctor von 2 erreicht.
Bei diesen Beispielen ist die Wiederholperiode, obwohl sie nominell als gleich der Stimmton-Periode definiert ist, nicht notwendigerweise gleich der Stimrnton-Perlode, Versuclle haben gezeigt, daß die Qualität und Verständlichkeit der synthetischen Sprache nahezu unabhängig ist vom Verhältnis der Wiederholperiode zur Stimmton-Periode für Verhältniswerte, die nicht viel größer oder kleiner als 1 sind.
Die Technik, Stimmton-Perioden der stimmhaften Phoneme zu wiederholen, führt wilde Signale bei der Stimmton-Frequenz ein. Diese Signale sind im allgemeinen unhörbar, weil sie durch das Signal größerer Amplitude bei dieser Frequenz maskiert werden, das sich durch die stimmhafte Anregung ergibt. Da stimmlose Phoneme, wie Reibelaute, keine großen Amplituden bei der Stimmton-Frequenz besitzen, weil sie stimmlos sind, ergibt eine Wiederholung von Segmenten ihrer Schwingungszüge mit Perioden in der GröBenordnung der Stimmton-Periode hörbare Verzerrungen in der Nähe der Stimmton-Frequenz. Wenn die wiederholten Segmente Längen gleich mehreren Stimmton-Perioden haben, erscheinen die hörbaren Störungen jedoch bei einem Bruchteil der Stimmton-Frequenz und können aus der resultierenden Schwingungsform ausgefiltert werden. Im Prototyp der Sprachsynthese-Anordnung sind die stimmlosen Reibelaute /s/, /f/ und /th/ mit Dauern von sieben Stimmton-Perioden der männlichen Stimme gespeichert worden, die diese Schwingungsform liefert.
Wiederholungen dieser vollen Schwingungszüge zur Erzeugung von Phonemen längerer Dauer ergibt also ein Störsignal bei einem Siebtel der Stimmton-Frequenz, was kaum hörbar ist und durch Filtern entfernt werden kann.
Zusammengefaßt: Die Technik der Wiederholung der Stimmton-Periode von Lauten ist in der Sprachsynthese-Anordnung nach der Erfindung mit einem Kompressionsfaktor n allgemein gleich 2 für Gleitlaute und Diphthonge verwendet worden. Für andere stimmhafte Phoneme ist n im allgemeinen zu 3 oder 4 gewählt worden. Für stimmlose Reibelaute sind Segmente von einer Länge gleich sieben Stimmton-Perioden so oft wie nötig wiederholt worden, im allgemeinen jedoch zweimal, um Laute entsprechender Dauer zu erzeugen. Im Mittel ist ein Kompressionsfaktor von etwa 3 durch Anwendung dieser Prinzipien gewonnen worden. In der obigen Diskussion wurde schweigend angenommen, daß die Stimmtonperiode der menschlichen Stimme eine Konstante ist. In Wirklichkeit variiert diese um einige Prozent von einer Periode zur nächsten, und um zehn oder zwanzig Prozent mit Tonveränderungen, Betonungen usw. Um die Digitalschaltung zu vereinfachen, die wiederholte Stimtonperiodcn von Lauten zu erzeugen, und um andere Kompressionstechniken durchzuführen, ist es wesentlich, daß die Stimmton-Periode der gespeicherten stimmhaften Phoneme exakt konstant ist.
Äquivalent ist erforderlich, daß die Anzahl der Digitalisierungen in jeder Stimmton-Periode jedes Phonems konstant ist. Bei der Sprachsynthese-Anordnung nach der Erfindung ist diese Zahl gleich 96, und jede Stimmton-Periode ;wurde auf diese konstante Länge gebracht, indem zwischen Digitalisierungen in den eingegebenen, gesprochenen Schwingungsformen interpoliert wurde, und zwar unter Verwendung eines Rechners, bis genau 96 Digitalisierungen in jeder Stimmton-Periode des Lautes vorhanden waren. Da die Taktfrequenz 10 000 Hz beträgt, ist die Stimmton-Periode der durch diese Syntheseanordnung erzeugten Stimme 9,6 msec.
Information hinsichtlich der Anzahl der Wiederholungen der Stimmton-Perioden irgendeines Phonems in irgendeinem Wort wird als Zweidaten-Bit im Silbenspeicher 106 der Syntheseanordnung aufbewahrt. Es können also eine bis vier Wiederholungen jeder Lautperiode vorhanden sein, und für ein gegebenes Phonem kann sich diese Zahl von einer Anwendung zur nächsten ändern.
X-Pcrioden-Nullsetzen Eine weitere neue Technik zur Verringerung des Informationsgehalts in einer Sprachschwingungsform ohne Verschlechterung der Verständlichkeit oder Qualität wird hier als "x-Perioden-Nullsetzen" bezeichnet. Um diese Technik zu verstehen, muß Bezug genommen werden auf eine Sprachschwingungsform wie 122 in Fig. 6. Ersichtlich ist der größte Teil der Amplituden oder der Energie der Schwingungsform im ersten Teil jeder Stimmton-Periode enthalten. Da diese Beobachtung typisch für die eisen Phoneme ist, ist es möglich, den letzten Teil der Schwingungsform in j jeder Stlmmtonperiode wegzulassen, ohne daß die VerständlichkeIt oder Qualität stimmhafter Phoneme merklich verschlechtert wird.
Ein Beispiel dieser Technik ist als unterste Schwingungsform in Fig. 6 dargestellt, wobei die Kleinamplituden-Hälfte 124 jeder Stimmton-Periode der Schwingungsform 122 gleich Null gesetzt worden ist. Diese zu Null gesetzte Halbperiode-Schwingungsform 124 klingt ununterscheidbar von der gemäß 122, obwohl der Informationsgehalt um einen Faktor 2 kleiner ist. Es sind Experimente durchgeführt worden, wobei Bruchteile von einem Viertel bis drei Viertel der Schwingungsform in jeder Stimmton-Periode der stimmhaften Phoneme durch ein Signal konstanter Amplitude ersetzt worden ist.
Diese Experimente, als "X-Perioden-Nullsetzen" bezeichnet, mit x zwischen 1/4 und 3/4, ergaben Wörter, die sich vom Original nicht unterschieden, wenn x kleiner war als etwa 0,6. Für x = 3/4 klangen die Wörter breiig, wenn auch sehr gut verständlich. In der Sprachsynthese-Anordnung gemäß der bevorzugten Ausführungsform der Erfindung ist x zu 1/2 für die stimmhaften Phoneme oder Phonemgruppen gewählt worden, in anderen, weniger günstigen Ausführungsformen der Erfindung kann x im Bereich von 1/4 bis 3/4 liegen.
Da diese Technik Signale mit der Stimmton-Periode einführt, kann sie bei stimmlosen Lauten, die unzureichende Amplituden bei diesen Frequenzen haben, um diese Verzerrung zu maslcieren, nicht verwendet werden. Da etwa 80 °,0 der Phoneme in dem Prototyp der Sprachsynthese-Anordnung Halb-Perioden-Null gesetzt sind, ist im Prototyp der Sprachsynthese-Anordnung durch Anwendung dieser Technik der Halb-Perioden-Nullsetzung ein Kompressionsfaktor von etwa 1,8 erreicht worden.
Die Verwirklichung der Halb-Perioden-Nullsetzung im Prototyp der Sprachsynthese-Anordnung wird dadurch relativ einfach, daß alle Stimmton-Perioden gleiche Länge haben. Information dahingehend, ob ein gegebenes Phonem oder eine Phonemgruppe Halb-Perioden-Null zu setzen ist, ist in einem einzigen Bit im Silbenspeicher 106 enthalten. Die analoge Ausgangs-Schwingungsform für Phoneme, die Halb-Perioden-Null zu setzen sind, wird durch ein Signal konstanten Pegels während der letzten Hälfte jeder Stimmton-Periode ersetzt, indem der Ausgang von der analogen Schwingungsform zu einem Signal konstanten Pegels umgeschaltet wird.
Diese Technik, Ruhe in den Schwingungszug einzuführen, wird auch an vielen anderen Stellen der Sprachsynthese-Anordnung verwendet. Viele Wörter haben lautlose Räume von etwa 50 bis 100 Millisekunden zwischen Phonemen. Beispielsweise enthält das Wort zeigt einen Ruheraum zwischen den Phonemen /e/ und /t/. In ähnlicher Weise existieren oft Ruheintervalle zwischen Worten in Sätzen. Diese Arten von Ruhe werden im Prototyp der Synthese-Anordnung dadurch erzeugt, daß der Ausgang von der Sprach-Schwingungsform auf konstanten Pegel umgeschaltet wird, wenn das entsprechende Informations-Bit im Silbenspeicher anzeigt, daß das interessierende Phonem Ruhe ist.
Delta-Modulation Da die Sprach-Schwingungsiorm relativ glatt und kontinuierlich ist, ist die Amplitudendifferenz zwischen aufeinanderfolgenden Digitalisierungen der Schwingungsform im allgemeinen erheblich kleiner als eine der beiden Amplituden.
Es braucht also weniger Information aufbewahrtzu werden, wenn Amplitudendifferenzen aufeinanderfolgender Digitalisierungen im Phonemspeicher gespeichert werden und die nächste Amplitude der Schwingungsform dadurch erhalten wird, daß der entsprechende Inhalt des Speichers zur vor angegangenen Amplitude addiert wird.
Dieser Prozeß der Delta-Modulation ist in vielen Sprachkompressionsschemen verwendet worden (Flanagan, 1972). Viele Versionen dieser Technik sind auf einem Rechner untersucht worden, während die Sprachsynthese-Anordnung nach der Erfindung entworfen wurde um die Anzahl der Bits pro Digitalisierung von vier auf zwei zu reduzieren. Es wurde ein Schema gefunden, das wenig oder keine feststellbare Verschlechterung der Sprachqualität oder Verständlichkeit liefert, und dieses Schema wird bezeichnet "Gleit-Null, Zwei-Bit-Delta-Modulation". Bei dieser Technik wird der Wert v. der i-ten Digitalisierung der Schwingungsform vom <i-1)ten Wert, vi-1, durch die Gleichung vi = vi-1 + f ( #i-1, #i) erhalten, wobei f irgendeine willkürliche Funktion ist und #i der i-te Wert der Zwei-Bit-Funktion ist, die im Phonemspeicher 104 als Delta-Modulations-Information bezüglich der i-ten Digitalisierung gespeichert ist. Da die Funktion f sowohl von der vorangegangenen als auch der gegenwärtigen Digitalisierung abhängt, können der Nullpegel und die Amplitude von Schätzungen der Neigung der Schwingungsform abhängig gemacht werden, die aus #i-1 und #i erhalten ist, und somit kann gesagt werden, daß der Null-Pegel von f gleitet und dieses Delta-Modulations-Schema kann als vorausschauend bezeichnet werden. Da nur sechzehn Kombinationen von #i-1 und #i möglich sind, weil jede eine zweistellige Binärzahl ist, ist die Funktion f eindeutig durch sechzehn Werte definiert, die in einem Festwertspeicher in der Sprachsynthese-Anordnung gespeichert sind. Etwa dreißig verschiedene Funktionen f wurden in einem Rechner getestet, um die Funktion auszuwählen, die im Prototyp der Sprachsynthese-Anordnung verwendet wird und die in der folgenden Tabelle 4 beschrieben ist: Tabelle 4 Werte der Funktion f (#i-1, #i) #i-1 #i f( #i-1, #i) 3 3 3 3 2 1 3 1 0 3 0 -1 2 3 3 2 2 1 2 1 0 2 0 -1 1 3 1 1 2 0 1 1 -1 1 0 -3 0 3 1 0 2 0 0 1 -1 0 0 -3 Die oben definierte Funktion hat die Eigenschaft, daß kleine Änderungen (Pegel(2) der Schwingungsform von einer Digitalisierung zur nächsten exakt reproduziert werden, während große Änderungen in jeder Richtung durch die Fähigkeit berücksichtigt werden, in jeder Richtung durch drei Pegel pro Digitalis=ierung zu t'schießen" oder zu 'gschleudern". Diese Form der Delta-Modulation reduziert den Informationsgehalt des Phonemspeichers 104 im Prototyp der Sprachsynthese-Anordnung um einen Faktor 2.
Ein Beispiel für die Anwendung des Gleit-Null-Zwei-Bit-Delta-Modulations-Schemas ist in Tabelle 5 dargestellt, wobei in der zweiten und dritten Spalte die Amplituden der ersten zwanzig Digitalisierungen einer Vier-Bit-Schwingungsform in Dezimal- und Binär-Einheiten angegeben sind. Die beiden Bits der Delta-Modulations-Information, die in den Phonem-Speicher 104 gehen würden, sind als nächste in dezimaler und binärer Form aufgelistet, und schließlich wird die Schwingungsform angegeben, die vom Prototyp der Synthese-Anordnung aus der komprimierten Information im Phonem-Speicher 104 rekonstruiert würde: Tabelle 5 Beispiel für Delta-Modulation Digita- Amplitude der Delta-Modulations- Amplitude der relisierung ursprünglichen Information (#i) konstruierten Schwingungsform Schwingungsform dezimal binär dezimal binär dezimal binär 1 10 1010 3 11 10 1010 2 13 1101 3 11 13 1101 3 14 1110 2 10 14 1110 4 15 1111 2 10 15 1111 5 15 1111 1 01 15 1111 6 13 1101 1 01 14 1110 7 9 1001 0 00 11 1011 8 7 0111 0 00 8 1000 9 5 0101 0 00 5 0101 10 4 0100 1 01 4 0100 11 5 0101 3 11 5 0101 12 7 0111 2 10 6 01.10 13 10 1010 3 11 9 1001 14 13 1101 3 11 12 1100 15 10 1010 0 00 11 1011 16 8 1000 0 00 8 1000 17 5 0101 0 00 5 0101 18 3 0011 1 01 4 0100 19 2 0010 1 01 3 0011 20 2 0010 1 01 2 0010 Als eine Illustration des Prozesses der Delta-Modulation soll beispielsweise die neunte Digitalisierung betrachtet werden. Die gewünschte Dezimalamplitude der Schwingungsform ist fünf, und die vorher rekonstruierte Amplitude betrug acht, so daß es erwünscht ist, drei von der vorangegangenen Amplitude zu subtrahieren. Die in der Spalte "Delta-Modulations-Information" und der Bezeichnung "dezimal" in Tabelle 5 für die achte Digitalisierung angegeben, war der vorangegangene Dezimalwert von #i null.
Aus Tabelle 4 ist ersichtlich, daß, wenn der gewünschte Wert von f< #i-1, #i) gleich -3 ist und der Wert von Z d.h. das vorangegangene #i, gleich null, der neue Wert von ei zu null gewählt wird. Die Delta-Modulations-Information, die im Phonemspeicher 104 für diese Digitalisierung gespeichert wird, ist dezimal null, oder binär 00, und der Prototyp der Synthese-Anordnung würde aus diesen und den vorangegangenen Daten einer Amplitude von fünf konstruieren. Wenn die Amplituden-Änderung eine Subtraktion von zwei erfordern würde anstelle von drei, dann würde jedoch ein Wert von #i gewählt, der die gewünschte Änderung unterschätzen würde. Im gegebenen Beispiel würde der nächste Wert von f< f( # i-1' d -1 sein und gemäß Tabelle 4 würde ein Wert ei ~ 1 gewählt.
Um den Delta-Modulations-Prozeß oder die Schwingungsform-Rekonstruktion zu starten, muß ein Satz Anfangsbedingungen am Beginn jeder Stimmton-Periode angenommen werden. Im Prototyp der Synthese-Anordnung ist angenommen, daß die nullte Digitalisierung einen rekonstruierten Amplitudenwert 7 hat und einem Wert von #i gleich drei. Da der gewünschte Dezimaiwert der ersten Digitalisierung in Tabelle 5 zehn ist, und der angenommene nullte Pegel sieben, sollte zum angenommenen nullten Pegel drei addiert werden. Gemäß der ersten Zeile in Tabelle 4 wird mit der Lage # Ai 1 ~ 3 und f( d i) = 3 der erste Wert von Ai nach der Tabelle 1-11 1 gleich drei (dezimal) bzw. 11 (binär) zu wählen sein.
Wie auch aus dem Beispiel in Tabelle 5 erkennbar ist, reproduziert die rekonstruierte Schwingungsform die hochfrequenten Komponenten oder schnellen Änderungen der anfänglichen Wellenform nicht, weil das Delta-Modulations-Schema eine begrenzte "Schleuder-" oder "Schieß-"Rate hat.
Dadurch wird etwa dafür gesorgt, daß die auftreffende Schwingungsform im Prozeß der Delta-Modulation integriert wird, und diese Integration kompensiert die Differentiation der anfänglichen Schwingungsform, die oben als erste der Informations-Kompressions-Techniken beschrieben worden ist.
Neben den besprochenen Kompressionstechniken weist die Sprachsynthese-Anordnung nach der Erfindung weitere Merkmale auf, die die Verständlichkeit und Qualität der reproduzierten Sprache unterstützen. Diese Merkmale sollen jetzt näher besprochen werden.
Stimmtonfrequenz-Änderungen Der Taktgeber 126 gemäß Fig. 5 steuert die Rate, mit der Digitalisierungen von der Sprachsynthese-Anordnung abgespielt werden. Wenn die Taktrate wächst, wachsen die Frequenzen aller Komponenten der ausgegebenen Schwingungsform proportional. Die Taktrate kann variiert werden, um eine Akzentuierung von Silben zu ermöglichen und ein Ansteigen oder Fallen des Stimmtons in unterschiedlichen Wörtern zu erzeugen. Über Tests auf einem Rechner ist gezeigt worden, daß die Stimmton-Frequenz auf diese Weise um etwa 10 % variiert werden kann, ohne daß die Lautqualität oder Verständlichkeit merklich beeinflußt wird. Diese Fähigkeit kann durch die Information gespeichert werden, die im Silbenspeicher 106 gespeichert wird, obwohl das beim Prototyp der Sprachsyntheseanordnung nicht geschehen ist. Stattdessen wird die Taktfrequenz auf die folgenden beiden Weisen variiert.
Zunächst wird dafür gesorgt, daß die Taktfrequenz sich kontinuierlich mit einer Rate von drei Hz um etwa 2 % ändert.
Diese Schwingung ist als solche im abgegebenen Schall nicht bemerkbar, es resultiert daraus jedoch das Verschwinden der störenden monotonen Qualität der Sprache, die vorhanden wäre, wenn die Taktfrequenz konstant wäre.
Zweitens kann die Taktfrequenz um plus oder minus 5 % geändert werden, indem manuell oder automatisch der eine oder der andere von zwei Schaltern geschlossen wird, die mit der externen Steuerung der Synthese-Anordnung assoziiert sind. Solche Stimmton-Frequenz-Variationen erlauben es, Akzentuierungen und Tonveränderungen in die ausgegebene Sprache einzuführen.
Die Taktfrequenz legt auch die höchste Frequenz der ursprünglichen Sprachschwingungsform fest, die reproduziert werden kann, weil diese höchste Frequenz die Hälfte der Digitalisierungs- oder Taktfrequenz ist. Bei der bevorzugten Ausführungsform der Sprachsynthese-Anordnung ist die Digitalisierungs- oder Taktfrequenz auf 10 000 Hz festgesetzt worden, so daß Sprachinformation mit Frequenzen bis 5 000 Hz reproduziert werden kann. Viele Phoneme, insbesondere die Reibelaute, haben wichtige Information oberhalb von 5 000 Hz, und damit wird deren Qualität durch diesen Informationsverlust verringert. Dieses Problem kann dadurch beseitigt werden, daß alle oder einige der Phoneme bei einer höheren Frequenz aufgezeichnet und wiedergegeben werden, wodurch allerdings der Aufwand für den Speicherraum im Phonemspeicher bei anderen Ausführungsformen steigen würde.
Amplitudenvariationen Das erfindungsgemäße Verfahren sorgt ferner für Amplitudenvariationen in jedem Phonem. Amplitudenvariationen können wichtig sein, um natürlich auftretende Amplitudenänderungen am Beginn und Ende der meisten Wörter zu stimulieren und gewisse Wörter in Sätzen hervorzuheben. Solche Änderungen können auch an verschiedenen Stellen innerhalb eines Wortes auftreten. Diese Amplituden-Änderungen können dadurch erreicht werden, daß entsprechende Information im Silbenspeicher 106 nach Fig. 5 gespeichert wird, um die Verstärkung des Ausgangsverstärkers 190 zu steuern, wenn das Phonem aus dem Phonemspeicher ausgelesen wird. Obwohl dieses Merkmal in der Sprachsynthese-Anordnung nach Fig. 5 zur Vereinfachung der Beschreibung nicht dargestellt ist, ist doch darauf hinzuweisen, daß es ein notwendiges Teil komplizierterer Ausführungsformen ist.
Bei der Erzeugung der Phoneme und Phonemgruppen der Synthese-Anordnung nach der bevorzugten Ausführungsform wurde darauf geachtet, die Amplitude der gesprochenen Daten konstant zu halten, so daß Phoneme oder Phonemgruppen von unterschiedlichen Aussprachen kombiniert werden konnten, ohne daß sich in der Amplitude eine hörbare Diskontinuität ergab.
Phonemspeicher Die Struktur des Phonemspeichers 104 ist 96 Bit mal 256 Wörter. Diese Struktur wird dadurch erreicht, daß zwölf 8-Bit-Pestwertspeicher parallel angeordnet werden, um eine 96-Bit-Wortstruktur zu erhalten. Die Speicher werden sequentiell gelesen, d.h. 8 Bits werden vom ersten Speicher gelesen, dann 8 Bits vom zweiten Speicher usw. bis 8 Bits vom 12. Speicher ausgelesen werden, um ein einzelnes Wort von 96 Bit zu vervollständigen. Diese 96 Bit repräsentieren 48 Teile einer Zwei-Bit-deltamodulierten Amplitudeninformation, die elektronisch decodiert werden, wie in Verbindung mit Tabelle 5 beschrieben. Die elektronische Schaltung zur Durchführung dieses Prozesses wird später in Verbindung mit Fig. 8 beschrieben.
Silbenspeicher Die Struktur des Silbenspeichers 106 beträgt 16 Bit mal 256 Wörter. Diese Struktur wird dadurch erreicht, daß zwei 8-Bit-Festwertspeicher parallel angeordnet werden.
Der Silbenspeicher 106 enthält die Information, die dazu erforderlich ist, Folgen von Ausgängen vom Phonemspeicher 104 zu Silben oder vollständigen Wörtern zu kombinieren.
Jedes 16-Bit-Segment des Silbenspeichers 106 liefert die folgende Information: Information . < erforderliche Anzahl von Bits Anfangsadresse im Phonemspeicher des interessierenden Phonems (0-127).
Diese siebenstellige Zahl wird später mit p' bezeichnet. 7 Information, ob das gegebene Phonem gespielt werden soll oder Ruhe gleicher Länge. Wenn das Bit eins ist, wird Ruhe gespielt. Diese Logikvariable wird später mit Y bezeichnet.
Information, ob dieses das letzte Phonem der Silbe ist. Wenn das Bit eins ist, handelt es sich um das letzte Phonem. Diese Logikvariable wird später mit G bezeichnet. 1 Information, ob das Phonem halb-periodengenullt ist. Wenn das Bit eins ist, ist das Phonem halb-perioden-genullt. Diese Logikvariable wird später mit Z bezeichnet.
Anzahl der Wiederholungen jeder Stimmton-Periode. Eine bis vier Wiederholungen werden mit den Binärzahlen 00 bis 11 bezeichnet, und die Dezimalzahl zwischen eins und vier wird später mit m' bezeichnet. 2 Anzahl der Stimmton-Perioden der Phonemspeicher-Information, die abgespielt werden sollen. Eine bis sechzehn Perioden werden mit den Binärzahlen 0000 bis 1111 bezeichnet, und die zwischen eins und sechzehn liegende Dezimalzahl wird später mit n' bezeichnet. 4 Wortspeicher Der Silbenspeicher 106 enthält ausreichende Information, um 256 Sprachphoneme zu erzeugen. Die damit erzeugten Silben werden durch den Wortspeicher 108 zu Worten kombiniert, der eine Struktur von acht Bit mal 256 Wörter hat. Definitionsgemäß enthält jedes Wort zwei Silben, von denen eine eine einzelne Stimmton-Periode Ruhe sein kann (was nicht hörbar ist) wenn das betreffende Wort aus nur einer Silbe besteht.
Das erste Paar von acht-Bit-Worten im Wortspeicher gibt damit den Startplatz im Silbenspeicher des Silbenpaars, das das erste Wort bildet, das zweite Paar Eingänge des Wortspeichers gibt ähnliche Information für das zweite Wort usw.. Die Größe des Wortspeichers 108 reicht also aus, für ein Vokabular von 128 Wörtern.
Satzspeicher Der Wort speicher 108 kann extern durch seine sieben Adreßleitungen 110 adressiert werden. Stattdessen kann er von einem Satzspeicher 114 adressiert werden, dessen Funktion es ist, die Erzeugung von Wortfolgen zu ermöglichen, die Sätze bilden. Der Satzspeicher 114 hat eine Grundstruktur von acht Bit mal 256 Wörtern. Die ersten sieben Bit jedes Wortes von acht Bit geben die Adresse des interessierenden Wortes im Wortspeicher 108 und das letzte Bit liefert Information ob das gegenwärtige Wort das letzte Wort des Satzes ist. Da der Satzspeicher 114, 256 Wörter enthält, ist er in der Lage, einen oder mehrere Sätze zu erzeugen, die insgesamt nicht mehr als 256 Wörter enthalten.
In Fig. 7 ist ein Blockschaltbild des Verfahrens dargestellt, mit denen die Inhalte des Phonemspeichers 104, des Silbenspeichers 106 und des Wort speichers 108 des Prototyps der Sprachsyntheseanordnung erzeugt werden.
Beim Erzeugen dieser Speicher wird das Vokabular nach Tabelle 2 zunächst in ein Mikrophon gesprochen, dessen Ausgang 128 differenziert wird, um ein Signal 130 zu erzeugen, das auf 4-Bit Genauigkeit mit einer Digitalisierungsrate von 10 000 Abfragungen pro Sekunde digitalisiert wird.
Diese digitalisierte Schwingungsform 132 wird durch lineare Interpolation zwischen aufeinanderfolgenden Datenpunkten expandiert oder kontrahiert, bis jede Stimmtonperiode stimmhafter Sprache 96 Digitalisierungen enthält. Die Amplitude jedes Wortes wird dann durch Vergleich mit der Amplitude eines Bezugsphonems normiert, um ein Signal mit einer Schwingungsform 134 zu erzeugen. Die Phoneme oder Phonemgruppen in dieser Schwingungsform, die halb-periodengenullt werden sollen, werden als nächste ausgewählt, und von diesen ausgewählten Schwingungsformen 136 wird die letzte Hälfte jeder Stimmtonperiode entfernt, um halbperioden-genullte Schwingungsformen 138 zu erzeugen. Die Schwingungsformen 140, die nicht halb-perioden-genullt sind, werden direkt zur nächsten Kompressionsstufc wettergeleitet, während die Information 142, die Phoneme oder Phonemgruppen betrifft, die halb-perioden-genullt sind, in den Silbenspeicher 106 eingegeben wird.
Die Phoneme oder Phonemgruppen 114, die Stimmtonperioden aufweisen, die wiederholt werden sollen, werden als nächste ausgewählt, und ihre unbenutzten Stimmtonperioden (die durch Wiederholungen der benutzten Stimmtonperioden bei der Rekonstruktion der Sprachschwingungsform ersetzt werden) werden entfernt, um Schwingungsformen 146 zu erhalten.
Diejenigen Phoneme oder Phonemgruppen 148, die nicht wiederholte Perioden haben, werden an diesem Vorgang vorbeigeleitet, und die Information 150 hinsichtlich der Anzahl der erforderlichen Stimmtonperioden-Wiederholungen für jedes Phonem oder Phonemgruppe wird Teil des Silbenspeichers 106.
Von ausgewählten Phonemen oder Phonemgruppen 152 werden als nächstes Silben konstruiert, und die unbenutzen Phoneme oder Phonemgruppen 154 werden beseitigt. Die Information 156 hinsichtlich der Phoneme oder Phonemgruppen, die jeweils eine Silbe bilden, werden Teil des Silbenspeichers 106. Anschließend werden Wörter aus ausgewählten Silben 158 konstruiert, und die unbenutzten Silben 160 werden entfernt. Die Information 162 hinsichtlich der Silbenpaare, die jedes Wort bilden, wird im Wortspeicher 108 gespeichert. Die Information 158 wird dann einer Delta-Modulation unterworfen, um die Anzahl von Bits pro Digitalisierung von vier auf zwei herabzusetzen. Die Digitaldaten 164, die dann die vollkomprimierte Version der anfänglichen Sprache darstellen, werden als Inhalt des Phonemspeichers 104 gespeichert.
Der Satzspeicher 114, der in Fig. 5, aber nicht in Fig. 7 dargestellt ist, um dieses Diagramm zu vereinfachen, wird als nächstes konstruiert, indem Sätze aus Kombinationen von dem 128 möglichen Worten der Tabelle 2 ausgewählt werden. Die Speicherstelle im Wortspeicher 108 jedes Wortes einer Wortfolge, die einen Satz bildet, wird zu der Information, die im Satzspeicher 114 gespeichert wird.
Die elektronische Schaltung, die dazu notwendig ist, das Vokabular von 128 Worten zu reproduzieren und damit zu synthetisieren, wird nunmehr in Verbindung mit Fig. 8 beschrieben.
Fig. 8 zeigt die Betriebsweise der Elektronik des Prototyps in Form eines Blockschaltbildes. Je nach dem Zustand des Wort-/Satz-Schalters 166 ist es möglich, entweder einzelne Wörter oder ganze Sätze zu adressieren. Es soll der erstere Fall betrachtet werden. Wenn der Wort-/Satz-Schalter 166 sich in der Position "Wort" befindet, sind die sieben Adressenschalter 168 direkt über den Datenselektor-Schalter 170 mit dem Adresseneingang des Wortspeichers 108 verbunden.
Damit lokalisiert die in den Schaltern 168 eingestellte Zahl die Adresse des Wortes, das gesprochen werden soll, im Wortspeicher 108.
Der Ausgang des Wortspeichers 108 adressiert die Lage der ersten Silbe des Wortes im Silbenspeicher 106 durch einen Zähler 178. Der Ausgang des Silbenspeichers 106 adressiert die Lage des ersten Phonems der Silbe im Phonemspeicher 104 über einen Zähler 180. Der Zweck der Zähler 178 und 180 wird näher später erläutert. Der Ausgang des Silbenspeichers 106 liefert auch Information an eine Steuerlogikschaltung 172, die die Kompressionstechnik betrifft, die bei dem betreffenden Phonem verwendet wurde (die genaue Form dieser Information ist im Detail in der Beschreibung des Silbenspeichers 106 enthalten).
Wenn ein Startschalter 174 geschlossen ist, wird die Steuerlogik 172 aktiviert, so daß sie beginnt, den Inhalt des Phonemspeichers 104 herauszuschieben, mit entsprechenden Dekompressionsprozeduren, und zwar durch den Ausgang eines Schieberegisters 176 mit einer Rate, die vom Taktgeber 126 gesteuert wird. Wenn alle Bits des ersten Phonems herausgeschoben sind, (die Anweisungen hinsichtlich der Anzahl der zu nehmenden Bits für ein gegebenes Phonem sind Teil der Information, die im Silbenspeicher 106 gespeichert ist) wird der Zähler 178, dessen Ausgang die achtstellige Binärzahl s ist, von der Steuerlogik 172 fortgeschaltet und der Zähler 180, dessen Ausgang die siebenstellige Binärzahl p ist, wird mit der beginnenden Adresse des zweiten Phonems geladen, das zu reproduzieren ist.
Wenn das letzte Phonem der ersten Silbe gespielt worden ist, wird ein J-K-Flip-Flop 182 von der Steuerlogik 172 umgeschaltet, und die Adresse des Wortspeichers 108 wird um ein Bit zur zweiten Silbe des Wortes fortgeschaltet.
Der Ausgang des Wortspeichers 108 adressiert jetzt die Lage des Beginns der zweiten Silbe im Silbenspeicher 106, und diese Zahl wird in den Zähler 178 geladen. Die Phonerne, die die zweite Silbe des Wortes bilden, das zu sprechen ist, werden als nächste durch das Schieberegister 176 geschoben in der gleichen Weise wie im Fall der ersten Silbe. Wenn das zweite Phonem der zweiten Silbe gesprochen worden ist, hält die Maschine an.
Die Arbeitsweise der Steuerlogik 177 ist ausreichend schnell, so daß der Bitstrom, der aus dem Schieberegister 176 herausgeschoben wird, kontinuierlich ist, ohne Pause zwischen den Phonemen. Dieser Bitstrom besteht aus einer Reihe von 2-Bit-Stücken deltamodulierter Amplitudeninformation, auf die eine Deltamodulations-Decodierer-Schaltung 184 wirkt um eine vierstellige Binärzahl vi sic?i zu erzeugen, die 10 000 mal pro Sekunde ändert.
Ein Digital-Analog-Wandler 186, eine Standard-R-2R-Leiterschaltung, wandelt diese sich ändernde vierstellige Binärzahl in eine analoge Repräsentation der Sprachschwingungsform um. Ein elektronischer Schalter 188 der als angeschlossen an den Ausgang des Digital-Analog-Wandlers 186 dargestellt ist, wird von der Steuerlogik 172 umgeschaltet, um den Systemausgang auf ein Signal mit konstantem Pegel zu schalten, das Ruheperioden innerhalb und zwischen Wörtern liefert, und in gewissen Stimmtonperioden, um die Halb-Perioden-Nullsetzungs-Operation durchzuführen. Die Steuerlogik 172 empfängt diese Ruhebefehle vom Silbenspeicher 106. Dieser Ausgang vom Schalter 188 wird gefiltert, um das Signal bei der Digitalisierungsfrequenz und der Stimmtonperioden-Wiederholungsfrequenz zu reduzieren, und zwar im Filterverstärker 190, und wird vom Lautsprecher 192 als das gesprochene Wort des Vokabulars wiedergegeben,das ausgewählt wurde. Das ganze System wird mit einem 20 kHz-Taktgeber 126 gesteuert, dessen Frequenz mit einem Taktmodulator 194 moduliert wird, um die monotone Qualität des Schalls aufzubrechen, die sonst vorhanden wäre, wie oben besprochen.
Wenn der Wort-/Satz-Schalter 166 sich in der Position "Satzt' befindet, ist die Betriebsweise ähnlich der beschriebenen, nur daß die sieben Adressenschalter 168 die Lage des Beginns des zu sprechenden Satzes im Satzspeicher 114 spezifizieren. Diese Zahl wird in einen Zähler 196 geladen, dessen Ausgang eine achtstelige Binärzahl j ist, die die Adresse des Satzspeichers 114 bildet. Der Ausgang des Satzschalters 114 wird durch den Datenselektorschalter 170 mit dem Adresseneingang des Wort speichers 108 verbunden. Die Steuerlogik 172 arbeitet in der oben beschriebenen Weise, um dafür zu sorgen, daß das erste Wort des Satzes gesprochen wird, schaltet dann den Zähler 196 um einen Zählschritt weiter und sorgt in ähnlicher Weise dafür, daß das zweite Wort des Satzes gesprochen wird. Diese Vorgänge wiederholen sich, bis eine Stelle im Satzspeicher 114 adressiert wird, die einen Haltebefehl enthält, und zu diesem Zeitpunkt hält die Maschine an.
Um die Betriebsweise der Elektronik des Prototyps noch besser zu verstehen, wird jetzt der tatsächliche Inhalt der verschiedenen Speicher, die an der Konstruktion eines speziellen Wortes beteiligt sind, untersucht. Es soll beispielsweise das Wort "three" betrachtet werden. Es wird mit dem siebten Eingang im Wortspeicher 108 adressiert, der Inhalt dieser Stelle sind, in binärer Schreibweise, 00000111. Das ist die Beginn-Adresse der ersten Silbe des Wortes "three" im Silbenspeicher 106. Die Adresse100000i2 in binärer Schreibweise, oder 7 in dezimaler Schreibweise, bezieht sich auf den achten Eingang im Silbenspeicher 106, d.h. die Binärzahl 00100000 00000110. Aus der früheren Beschreibung des Silbenspeichers 106 ist festzustellen, daß p' = 0010000, die 7 höchstwertigen Stellen der Adresse im Phonemspeicher 104, wo das erste Phonem der ersten Silbe startet. Diese Adresse ist die beginnende Stelle des Lautes "th" im Phonemspeicher 104.
Das achte Bit vom Silbenspeicher 106 zeigt an Y - 0, was bedeutet, daß dieses Phonem nicht Ruhe ist. Das neunte Bit gibt an G = 0, was bedeutet, daß es sich nicht um das letzte Phonem der Silbe handelt. Das zehnte Bit gibt Z - 0, was bedeutet, daß Halb-Perioden-Nullstellung nicht verwendet wurde, Das elfte und zwölfte Bit geben m' = die Anzahl von Malen, die jede Stimmtonperiode des Lautes zu wiederholen ist. Die letzten vier Bits geben n'-l = 0110 in binärer Schreibweise, so daß n' = 7 in dezimalen Einheiten ist, was die Gesamtzahl von Stimmtonperioden des Lautes ist, die für dieses Phonem zu nehmen sind. Da G = O für das erste Phonem ist, gehen wir zum nächsten Eingang im Silbenspeicher 106, um die Information für das nächste Phonem zu erhalten.
Der nächste Eingang ist ebenfalls 00100000 00000110. Das bedeutet, daß das zweite Phonem, das erzeugt wird, ebenfalls "th" ist. Da G = 0 ist, gehen wir zum nächsten Eingang im Silbenspeicher 106, um Information hinsichtlich des dritten Phonems zu erhalten. Der nächste Eingang ist 00101110 11101001. Damit sind p' = 0010111, Y = O, G = 1, Z = 1, m' = 3 (dezimal) und n' = 10 (dezimal). Die Zahl 0010111 ist die Startadresse von "ree" im Phonemspeicher 104. Die Gleichsetzung G = 1 zeigt an, daß es sich um das letzte Phonem der Silbe handelt. Da Z = 1, ist dieses Phonem halb-perioden-nullgesetzt. Die Gleichsetzung m' = 3 bedeutet, daß jede Lautperiode 3 Mal zu wiederholen ist, und n' = 10 bedeutet, daß insgesamt zehn Perioden vom Phonemspeicher 104 gespielt werden. Da es sich um das letzte Phonem der ersten Silbe des Wortes, das gesprochen wird, handelt, wird die Adresse des Beginns der zweiten Silbe im Silbenspeicher 106 beim nächsten Eingang in den Wortspeicher 108 gefunden.
Der nächste Eingang im Wortspeicher 108 ist 10000011. Da die Binärzahl 10000011 = 131 (dezimal) ist, wird die gewünschte Information vom 131sten Binärwort des Silbenspeichers 106 erhalten, d.h. 00000001 10000000. Damit sind p' = 0000000, Y = 1, G = 1, Z = O, m' = 1 und n1 = 1.
Da Y = 1, spielt dieses Phonem nur Ruhe, da m' = nl = 1, dauert es insgesamt eine Stimmtonperiode, und da G =1, handelt es sich um das letzte Phonem der Silbe.- Da es sich um die zweite Silbe des Wortes handelte, hält die Syntheseanordnung an.
Soweit oben spezielle Elektronikschaltungen erwähnt worden sind, um die Arbeitsweise der bevorzugten Ausführungsform der Erfindung zu beschreiben, so sind doch ersichtlich bei anderen Ausführungsformen andere Logikschaltungen verwendbar, um das gleiche Verfahren auszuführen. Es ist auch keine spezielle Logikschaltung beschrieben worden, um automatisch die Speichereinheiten der Sprachsynthese-Anordnung zu programmieren, solche Schaltungen liegen jedoch im Bereich des Fachwissens, sobald dem Fachmann die im Vorangegangenen gebrachten Erläuterungen des Grunclgedankens der Syntheseanordnung bekannt sind.
Der Einfachheit halber ist auch in der Beschreibung die Automatikschaltung weggelassen worden, die dazu erforderlich ist, gewisse Schalter zu schließen, beispielsweise den Startschalter 174 und die Adressenschalter 168. Es ist selbstverständlich ersichtlich, daß in gewissen Ausführungsformen diese Schalter lediglich repräsentativ für die Ausgänge von peripheren Geräten sind, die die Sprachsynthese-Anordnung nach Erfindung an eine spezielle Funktion adaptieren, beispielsweise als Sprachausgabe eines Rechners.

Claims

P a t e n t a n s p r ü c h e

1. Verfahren zum Synthetisieren von Sprachinformation, dadurch gekennzeichnet, daß elektrische Signale, die ausgewählte Sprachinformation repräsentieren, zeitlich differenziert werden, die Amplitude der elektrischen Signale zeitlich quantisiert wird, die zeitlich quantisiert2~ Sigvale selektiv dadurch komprimiert werden, daß ausgewählte Teile derselben entfernt werden, während gleichzeitig Befehlssignale hinsichtlich der entfernten Teile erzeugt werden, die komprimierten Signale und die Befehlssignale gespeichert werden, selektiv einige der gespeicherten komprimierten Signale und Befehlssignale wieder aufgesucht werden, und die wiedergefundenen komprimierten Signale und die Befehlssignale benutzt werden, gewählte Sprachinformation zu reproduzieren.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Signalkompression wenigstens zwei der folgenden Schritte einschließt: Es werden digitalisierte Darstellungen der Ableitung gewisser Sprachschwingungsformen gespeichert, statt die Schwingungsform selbst aus den zeitlich quantisierten Signalen werden Signale ausgewählt, die gewisse Phoneme und Phonemgruppen repräsentieren und Teile dieser ausgewählten Signale, die Teilen der Stimmtonperioden gewisser Phoneme und Phonemgruppen entsprechen, durch ein Signal konstanter Amplitude ersetzt, während Befehlssignale erzeugt werden, die die Phoneme und Phonemgruppen bezeichnen, die so ausgewählt worden sind, von den zeitlich quantisierten Signalen werden Signale ausgewählt, die gewisse Phoneme und Phonemgruppen repräsentieren und nur Teile dieser ausgewählten zeitlich quantisierten Signale gespeichert, die jeder n-ten Stimmtonperiode der Schwingungsform des ursprünglichen elektrischen Sprachinformationssignals zu entsprechen, und es werden Befehlssignale hinsichtlich der Phoneme und Phonemgruppen gespeichert, die so ausgewählt worden sind, und Befehlssignale hinsichtlich der Werte von n, die zeitlich quantisierten Signale, die gesprochene Wörter repräsentieren, werden in zwei oder mehr Teile auf getrennt, es werden Teile der zeitlich quantisierten Signale gespeichert, die gewählten Phonemen und Phonemgruppen entsprechen, gemäß ihrer Möglichkeit, natürlich in andere Phoneme zu überblenden, und die zeitlich quantisierten Signale werden deltamoduliert.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß elektrische Signale erzeugt werden, die gesprochene Wörter und Teile von gesprochenen Wörtern eines vorgegebenen, endlichen Vokabulars repräsentieren, ausgewählte Teile der digitalen Signale, die Phoneme und Phonemgruppen repräsentieren, werden in einem ersten, adressierbaren elektronischen Speicher gespeichert, in einem zweiten adressierbaren elektronischen Speicher werden Befehle hinsichtlich der Folge der Adressen der gespeicherten Phoneme und Phonemgruppen gespeichert, die dazu notwendig sind, Wörter und Sätze des Vokabulars zu reproduzieren, gewisse Wörter des Vokabulars werden selektiv dadurch reproduziert, daß ausgewählte Befehle vom zweiten Speicher aufgesucht und die Befehle dazu verwendet werden, sequentiell ausgewählte Teile der gespeicherten Digitalsignale aus dem ersten Speicher herauszuziehen, und die gewählten Teile der Digitalsignale, die aus dem ersten Speicher herausgezogen sind, werden elektromechanisch als ausgewählte, hörbare, gesprochene Wörter des Vokabulars reproduziert.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Wörter des Vokabulars in Einheiten aufgeteilt werden, die mehrere Phoneme oder Phonemgruppen enthalten und die Digitalsignale, die diese Einheiten repräsentieren, gespeichert werden.

5. Verfahren nach Anspruch 3 oder 4 dadurch gekennzeichnet, daß Teile der elektrischen Signale, die die Sprachschwingungsform repräsentieren, in jeder Stimmtonperiode der Schwingungsform mit einem Signal konstanter Amplitude ersetzt werden.

6. Verfahren nach Anspruch 3, 4 oder 5, dadurch qekennzeichnet, daß digitale Darstellungen der Differenzen zwischen aufeinander folgenden Amplituden von Digitalsignalen gespeichert werden.

7. Verfahren nach einem der Ansprüche 3 bis 62 dadurch ckennzeichnet, daß die Digitalsignale vom ersten Speicher mit einer variablen Taktrate wieder aufgesucht werden, so daß die Stimmtonfrequenz des reproduzierten Sprachlauts auf unterschiedliche Werte eingestellt wird und über die Dauer des Sprachlautes steigt oder fällt, so daß eine Akzentuierung von Silben, Beseitigung der monotonen Qualität, Tonveränderungen und andere Stimmtonvariationen der synthetisierten Sprache reproduziert werden können.

8. Verfahren nach einem der Ansprüche 3 - 7 dadurch (Tekennzeichnet, daß ein kontinuierliches Signal in die Digitalsignale eingeführt wird, die vom ersten Speicher abgezogen werden, so daß Ruhe-Tntervalle zwischen und innerhalb synthetisierter Worte stimuliert werden.

9. Verfahren nach einem der Ansprüche 3 - 8, dadurch gekennzeichnet,daß die Dauer des Abspielens eines Phonems oder einer Phonemgruppe in unterschiedlichen Wörtern variiert wird und die Dauer durch Befehle gesteuert wird, die im zweiten Speicher gespeichert sind.

10. Verfahren nach einem der Ansprüche 3 - 9, dadurch qekennzeichnet, daß nur die Digitalsignale gespeichert werden, die dazu erforderlich sind, gewählte Teile der Phonem-Schwingungsformen der Vokabularwörter im ersten Speicher darzustellen, die gespeicherten Teile in allgemein regelmäßigen Intervallen von über die ganze Wellenform extrahiert werden, und jeder extrahierte Teil eine vorgegebene Anzahl von Malen abgespielt wird, um ein Signal einer Dauer zu erzeugen, die gleich der Dauer der ursprünglichen Phonemschwingungsform von einem gespeicherten Informationsteil zum nächsten ist, so daß nach Wiederholung jedes Teils der gespeicherten Information ein zusammengesetztes Signal mit der Dauer des ursprünglichen Phonems erzeugt wird.

11. Verfahren nach einem der Ansprüche 3 - 10, dadurch qekennzeichnet, daß im ersten Speicher Teile der Digitalsignale über eine Wiederholperiode ausgewählt und gespeichert werden, wobei die Summe der Wiederholperioden eine Dauer hat, die kleiner ist als die Dauer der ursprünglichen Sprachschwingungsform, die Wiederholperiode gleich der Stimmtonperiode der stimmhaften Sprache gesetzt wird, die synthetisiert werden soll, und jede n-te Stimmtonperiode der Schwingungsform gespeichert wird.

12. Verfahren nach einem der Ansprüche 3 - 11, dadurch gekennzeichnet, daß die Digitalsignale, die einen vorbestimmten Teil X im letzteren Teil des elektrischen Signals innerhalb jeder Stimmtonperiode der gesprochenen Information repräsentieren durch ein Signal konstanter Amplitude ersetzt werden.

13. Verfahren nach einem der Ansprüche 3 - 12, dadurch qekennzeichnet, daß die Digitalsignale vor der Speicherung im ersten Speicher deltamoduliert werden, indem der Wert der i-ten Digitalisierung des abgefragten Signals gleich dem Wert der <i-1)-ten Digitalisierung des abgefragten Signals plus f(#i-1, # i gesetzt wird, wobei f<i-1' f eine willkürliche Funktion ist, die die Eigenschaft hat, daß Änderungen der Schwingungsform von weniger als zwei Pegeln von einer Digitalisierung zur nächsten exakt reproduziert werden, während größeren Änderungen in jeder Richtung dadurch Rechnung getragen wird, daß mit drei Pegel pro Digitalisierung in einer Richtung gearbeitet wird (slewing).

14. Verfahren nach einem der Ansprüche 3 - 13, dadurch qekennzeichnet, daß Sprach-Schwingungsformen mit konstanter Stimmtonfrequenz produziert und gespeichert werden.

15. Verfahren nach einem der Ansprüche 3 - 14, dadurch gekennzeichnet, daß Sprach-Schwingungsformen mit konstanter Amplitude produziert und gespeichert werden.

16. Anordnung zur Sprachsynthese, gekennzeichnet durch einen ersten adressierbaren Speicher zur Speicherung von Digitalsignal-Repräsentationen von elektrischen Signalen, die Teile von gesprochenen Wörtern eines vor gegebenen Vokabulars repräsentieren, einen zweiten adressierbaren Speicher zur Speicherung erster Befehlssignale hinsichtlich der Adressen von Signalen, die Teile der Vokabularwörter repräsentieren, im ersten Speicher, einen dritten adressierbaren Speicher zur Speicherung von zweiten Befehlssignalen hinsichtlich der Adressen von Folgen der ersten Befehlssignale, die notwendig sind, um gewählte Wörter des Vokabulars zu bilden, im zweiten Speicher, Wiedergabeeinrichtungen, die auf den Digitalsignal-Ausgang des ersten Speichers ansprechen, um diese Digitalsignale in hörbarer Form zu reproduzieren, und eine Steuerlogik, mit der selektiv sequentiell die zweiten Befehlssignale vom dritten Speicher herausgezogen werden und diese herausgezogenen zweiten Befehlssignale dafür verwendet werden, sequentiell gewählte erste Befehlssignale vom zweiten Speicher herauszuziehen, und diese herausgezogenen ersten Befehlssignale dazu verwendet werden, sequentiell ausgewählte Digitalsignale aus dem ersten speicher herauszuziehen, um gewählte Wörter des Vokabulars über die Wiedergabeeinrichtung hörbar zu reproduzieren.

17. Anordnung nach Anspruch 16 dadurch gekennzeichnet, daß die im ersten Speicher gespeicherten Digitalsignale deltamoduliert sind.

18. Anordnung nach Anspruch 16 oder 17, dadurch gekennzeichnet, daß die im ersten Speicher gespeicherten Digitalsignale die zeitlichen Quantisierungen der Ableitung nach der Zeit von analogen elektrischen Signalen sind, die die Phoneme und Phonemgruppen repräsentieren, die Bestandteile des vorgegebenen Vokabulars sind.

19. Anordnung nach Anspruch 16, 17 oder 18, dadurch ekennzeichnet, daß der zweite Speicher weiter Kompressions-Befehlssignale speichert, um die Betriebsweise der Steuerlogik zu steuern, wobei die Steuerlogik auf die Kompressions-Befehlssignale anspricht und den Ausgang des ersten Speichers entsprechend den Kompressionsbefehlssignalen modifiziert.

20. Anordnung nach Anspruch 19, dadurch gekennzeichnet, daß die im zweiten Speicher gespeicherten Kompressions-Befehlssignale Befehle hinsichtlich der Adressen von Digitalsignalen im ersten Speicher enthalten, die Phonemen und Phonemgruppen entsprechen, die natürlich in andere Phoneme und Phonemgruppen überblenden.

21. Anordnung nach Anspruch 19 oder 20 dadurch gekennzeichnet, daß die im ersten Speicher gespeicherten Digitalsignale nur ausgewählte Teile der Digitalsignale sind, die gesprochene Vokabularwörter repräsentieren, wobei die Teile über eine Wiederholperiode ausgewählt sind, die gleich der Stimmtonperiode der zu synthetisierenden stimmhaften Sprache sind, und nur solche Digitalsignale, die jeder n-ten Stimmtonperiode entsprechen, gespeichert sind, und daß die im zweiten Speicher gespeicherten Kompressions-Signale Befehlssignale für die Steuerlogik aufweisen hinsichtlich der Anzahl von Malen n, die jeder so gewählte Datenteil wiederholt aus dem ersten Speicher herausgezogen werden muß, ehe ein unterschiedlicher Signalteil herauszuziehen ist.

22. Anordnung nach Anspruch 19, 20 oder 21, dadurch gekennzeichnet, daß ausgewählte der im ersten Speicher gespeicherten Digitalsignale nur einen ersten Teil der Schwingungsformen der stimmhaften Phoneme und Phonemgruppen repräsentieren, die Bestandteile des vorgegebenen Vokabulars sind, die im zweiten Speicher gespeicherten Kompressions-Signale x-perioden-nullsetzen-Befehlssignale enthalten hinsichtlich der Adressen der ausgewählten Digitalsignale im ersten Speicher, und daß die Reualogik Einrichtungen aufweist, die auf die x-periodennullsetzen-Befehlssignale anspricht, um der Wiedergabeeinrichtung Signale konstanter Amplitude zuzuführen, deren Dauer gleich der der restlichen Teile der Schwingungsformen der stimmhaften Phoneme und Phonemgruppen ist, die Bestandteile des vorgegebenen Vokabulars sind.

23. Anordnung nach einem der Ansprüche 16 bis 22, dadurch gekennzeichnet, daß sie auf einem einzigen LSI-Schaltungshalbleiterplättchen untergebracht ist.