AT311077B - Einrichtung zur Synthetisierung von Audio-Informationen - Google Patents

Einrichtung zur Synthetisierung von Audio-Informationen

Info

Publication number
AT311077B
AT311077B AT1215768A AT1215768A AT311077B AT 311077 B AT311077 B AT 311077B AT 1215768 A AT1215768 A AT 1215768A AT 1215768 A AT1215768 A AT 1215768A AT 311077 B AT311077 B AT 311077B
Authority
AT
Austria
Prior art keywords
phoneme
memory
phonemes
sep
control device
Prior art date
Application number
AT1215768A
Other languages
English (en)
Original Assignee
Rca Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rca Corp filed Critical Rca Corp
Application granted granted Critical
Publication of AT311077B publication Critical patent/AT311077B/de

Links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Description


   <Desc/Clms Page number 1> 
 



   Die Erfindung betrifft eine Einrichtung zur Synthetisierung von Audio-Informationen, insbesondere der menschlichen Sprache, mit einem ersten in zugeordneten Bereichen   Phoneme-Stellungen   vorzugsweise in digitaler Form aufnehmenden Speicher, einer Steuereinrichtung zur Entnahme des Inhaltes der Abschnitte des ersten Speichers in jeder gewünschten Reihenfolge in Abhängigkeit von der Steuereinrichtung zuführbaren den einzelnen Phonemen zugeordneten Kennzahlen und einem ersten Umsetzer zur Umwandlung der entnommenen Speicherinhalte in Audio-Signale. 



   Die menschliche Sprache ist eine Audio-Information, welche eine Reihe komplexer Laute enthält, die durch den Kehlkopf, die Zuge,   Mund-und Nasenräume   sowie die Atmungsstärke gesteuert und bestimmt werden. Infolge der erlernten Fähigkeiten, zu sprechen und Sprache zu verstehen, werden die dabei mitspielenden schwierigen Probleme nicht unterschätzt. Bei der künstlichen Erzeugung von Sprache müssen alle Faktoren, so nebensächlich sie auch erscheinen mögen, in Betracht gezogen werden, so weit sie zur Erzeugung verständlich gesprochener Wörter beitragen. 



   Die Aufzeichnung von Sprache erfolgt ebenso wie die von Musik normalerweise analog. Die kontinuierlichen Änderungen der Amplitude und Frequenz der Audio-Information werden also auf dem Speichermedium beibehalten. Die Wiedergabe der Sprache kann dann einfach durch   Zurückverwandeln   der aufgezeichneten Signale in hörbare Toninformation erfolgen. 



   Bei der Synthese von Audio-Information, insbesondere Sprache, wird mehr als eine einfache Wiedergabe angestrebt. Der Zweck einer synthetischen Spracherzeugung besteht vielmehr darin, abstrakte Tatsachen oder gespeicherte Information in verständliche Sprache umzusetzen, um die Tatsachen oder Information einer Person mitteilen zu können, die sie wissen möchte. 



   Es sind verschiedene Lösungen   tLees   Problems bekannt. Die naheliegendste Lösung besteht darin, alle in einem bestimmten Anwendungsbereich möglichen Sätze, die der Benutzer wünschen oder benötigen könnte, zu speichern. Hiefür wird jedoch selbst bei einer kleinen Anzahl von Tatsachen die für die Speicherung aller Permutationen und Kombinationen der Tatsachen erforderliche Speicherkapazität untragbar gross. 



   Um die Speicherkapazität zu verringern, ist es bekannt, statt ganzen Sätzen nur Satzteile zu speichern. 



  Auch hiefür wird noch eine relativ grosse Speicherkapazität benötigt. Eine weitere Verringerung der Speicherkapazität ist dadurch möglich, dass man nur einzelne Wörter speichert und diese zu Sätzen zusammensetzt. Diese bekannte Massnahme hat jedoch den Nachteil, dass der Wortschatz verhältnismässig beschränkt bleibt. Ähnliche Schwierigkeiten ergeben sich auch bei der Verwendung von   Silben.   



   Der erfolgreichste Lösungsweg, mit dem sich ein grosser Wortschatz erreichen lässt, ohne dass grosse Speicherkapazitäten benötigt werden, besteht in der Verwendung der kleinsten sprachlichen Einheiten, der sogenannten Phoneme. 



   Ein Phonem ist eine Gruppe von gleichen oder verwandten Lauten, die sich unter verschiedenen phonetischen Bedingungen ändern. In der englischen Sprache gibt es 40 Phoneme, die in sieben Gruppen eingeteilt werden können. 



   Die ersten drei Gruppen umfassen die Vokale. Die erste Gruppe enthält die zehn einfachen Vokale ; die zweite Gruppe die sechs Diphtonge und die dritte Gruppe die vier Halbvokale und Liquida. 



   Die vierte Gruppe enthält die sechs Spreng- oder Explosivlaute. 



   Die fünfte Gruppe enthält die drei Nasalkonsonanten. 



   Die sechste Gruppe enthält neun Frikative oder Spiranten, die durch ein reibendes Geräusch des Atmens an einem Teil des Mundraumes gekennzeichnet sind. 



   Die siebente Gruppe enthält die zwei Affrikaten. Dies sind Verschluss- oder Explosivlaute, denen eine langsame Trennung der lautbildenden Organe folgt, so dass der letzte Teil ein Frikativ oder Spirant mit entsprechender Organstellung ist. 



   In der folgenden Tabelle I sind die oben angeführten Phoneme gruppenweise angegeben. Jedes Phonem ist mittels eines einfachen typischen Wortes dargestellt und zur Kennzeichnung unterstrichen. 

 <Desc/Clms Page number 2> 

 Tabelle I 
 EMI2.1 
 
<tb> 
<tb> Elementarlaute <SEP> (Phoneme) <SEP> der <SEP> englischen <SEP> Sprache
<tb> I. <SEP> einfache <SEP> Vokale <SEP> II. <SEP> Diphtonge
<tb> 1. <SEP> fit <SEP> 1. <SEP> pain
<tb> 2. <SEP> feet <SEP> 2. <SEP> go
<tb> 3. <SEP> let <SEP> 3. <SEP> house
<tb> 4. <SEP> bat <SEP> 4. <SEP> ice
<tb> 5. <SEP> but <SEP> 5. <SEP> boy
<tb> 6. <SEP> not <SEP> 6. <SEP> few
<tb> 7. <SEP> law
<tb> 8. <SEP> book <SEP> III. <SEP> Halbvokale <SEP> und <SEP> Liquida
<tb> 9. <SEP> boot
<tb> 10. <SEP> bird <SEP> 1. <SEP> you
<tb> 2. <SEP> we
<tb> 3. <SEP> late
<tb> 4. <SEP> rate
<tb> IV. <SEP> Explosivlaute <SEP> VI. <SEP> Frikative
<tb> 1.

   <SEP> bad <SEP> 1. <SEP> zero
<tb> 2. <SEP> dive <SEP> 2. <SEP> vision
<tb> 3. <SEP> give <SEP> 3. <SEP> very
<tb> 4. <SEP> pot <SEP> 4. <SEP> that
<tb> 5. <SEP> toy <SEP> 5. <SEP> hat
<tb> 6. <SEP> cat <SEP> 6. <SEP> fat
<tb> 7. <SEP> thing
<tb> 8. <SEP> shed
<tb> 9. <SEP> sat
<tb> V. <SEP> Nasal-Konsonanten <SEP> VII. <SEP> Affrikaten
<tb> 1. <SEP> may <SEP> 1. <SEP> church
<tb> 2. <SEP> now <SEP> 2. <SEP> judge
<tb> 3. <SEP> sing
<tb> 
 
Zur künstlichen Spracherzeugung reicht es jedoch nicht aus, einfach eine Folge von aufgezeichneten Phonemen wiederzugeben.

   Um eine natürlich klingende künstliche Sprache aus Phonemen zu erzeugen, müssen vielmehr noch drei Bedingungen erfüllt sein :
1) die Kontinuität der Sprachschwingung muss an den Übergängen zwischen den Phonemen gewährleistet sein ;
2) die Kontinuität der Tonhöhe muss an den Phonemgrenzen gewährleistet sein und
3) die Kontinuität der Frequenzkomponenten der Phoneme muss an den   Übergängen   zwischen den Phonemen gewährleistet sein. 



   Als Frequenzbestandteile eines Phonems können die vorherrschenden Frequenzen angegeben werden, die als Formanten bezeichnet werden sollen. Bekanntlich kann jede komplizierte periodische Schwingung aus einer Kombination von Sinusschwingungen geeigneter Frequenzen, Amplituden und Phasenlagen zusammengesetzt werden. Der charakteristische Klang eines Phonems kann durch die Kombination von nicht mehr als drei Formanten, die sich jeweils zeitlich ändern können oder nicht, erkennbar wiedergegeben werden. 



   Die Synthetisierung von Sprache (oder anderer Klassen von Audio-Information) aus Phonemen erfordert also die Wahl einer entsprechenden Phonemfolge und eine Verschmelzung der Formanten der jeweiligen Phoneme an ihren Verbindungsstellen, so dass die resultierende Sprache keine Unterbrechungen aufweist. 



   Es sind bereits verschiedene Möglichkeiten bekannt, einen stetigen Übergang zwischen Phonemen zu erreichen (USA-Patentschriften   Nr. 2, 771, 509 ; Nr. 2, 860, 187 ; Nr. 3, 158, 685).   Bei den bekannten Lösungen werden die   Übergänge   zwischen den Phonemen durch spezielle Schaltungen hergestellt, die die erforderliche Stetigkeit am Übergang bewirken, oder es werden jeweils von einem Phonem verschiedene Formen gespeichert, so dass man ein Phonem auswählen kann, welches einen gleichmässigen Übergang ergibt. 



   Der Erfindung liegt die Aufgabe zugrunde, eine Einrichtung zur Synthetisierung der menschlichen Sprache 

 <Desc/Clms Page number 3> 

 anzugeben, die sich durch eine bisher unerreichte Sprachqualität auszeichnet, ohne dass grosse Speicherkapazitäten benötigt werden oder Einschränkungen des Vokabulars in Kauf genommen werden müssen. 



  Die künstliche Sprache kann durch Steuersignale erzeugt werden, die die zu übertragende Information bestimmen. Einrichtungen der vorliegenden Art eignen sich   z. B.   für die Umsetzung der von einer elektronischen Datenverarbeitungsanlage oder einem andern Gerät gelieferten Ausgangsdaten in verständlicher Sprache. 



   Gemäss der Erfindung wird dies bei einer Einrichtung der eingangs angeführten Art erfindungsgemäss dadurch erreicht, dass die Steuereinrichtung Schaltungen aufweist, welche einen Teil der Phonemdarstellung von ihrem zugeordneten Bereich des ersten Speichers entnimmt, wobei dieser Teil einen jeden solchen Phonemdarstellung innerhalb ihres Bereiches des ersten Speichers durch Anfang und Ende auswählbar ist und Anfang und Ende des Teiles durch die Kennzahlen festlegbar sind. 



   Eine Weiterbildung der Erfindung besteht darin, dass der erste Umsetzer einen zweiten Speicher zur Zwischenspeicherung von mindestens zwei Teilen von dem ersten Speicher entnommenen Phonemdarstellungen besitzt und die Steuereinrichtung zur Entnahme der im zweiten Speicher gespeicherten Phoneme dient, um diese in kontinuierliche elektrische Signale umzuwandeln. 



   Eine bevorzugte Verwendung der   erfindungsgemässen   Einrichtung zur Synthetisierung von Audio-Informationen, insbesondere der menschlichen Sprache, besteht darin, dass die Kennzahlen, welche den Anfang und das Ende des Teiles des auszulesenden Phonems angeben, so gewählt werden, dass die Übergänge zwischen dem vorangegangenen, dem auszuwählenden und dem nachfolgenden Phonem einen stetigen Verlauf der Formanten dieser Phoneme aufweisen. 



   Die   Erfindung   wird im folgenden an Hand der Zeichnungen näher erläutert, es zeigen : Fig. l eine graphische Darstellung des ungefähren zeitlichen Verlaufes der Formanten des gesprochenen   Wortes"WED" ;   Fig. 2 eine graphische Darstellung des ungefähren zeitlichen Verlaufes der Formanten des gesprochenen Wortes "WADE" ; Fig. 3 eine graphische Darstellung, aus der entnommen werden kann, wie ein Übergang bestimmt wird, um die Kontinuität der Formanten zwischen Phonemen zu gewährleisten; Fig.4 eine graphische Darstellung des zeitlichen Verlaufes zweier ineinander übergehender Phoneme gemäss Fig. 3 ; Fig. 5 eine graphische Darstellung, in der zwei Perioden einer typischen komplexen Schwingung dargestellt sind, wie sie in der Sprache vorkommen ;

   Fig. 6 eine graphische Darstellung der Impulse, die bei einer periodischen Abtastung der in Fig. 5 dargestellten Schwingung erhalten werden ; Fig. 7 ein Blockschaltbild eines Ausführungsbeispieles der Erfindung, das mit digitaler Speicherung arbeitet ; Fig. 8 ein Blockschaltbild eines Ausführungsbeispieles der   Erfindung,   das mit analoger Speicherung arbeitet, und Fig. 9 und 10 Blockschaltbilder weiterer Ausführungsbeispiele der Erfindung. 



   In Fig. l sind die   Formanten-103,   107 und   109-four   das gesprochene Wort "WED" dargestellt, wie sie   z. B.   auf einem Spektogramm erscheinen ; die ausgezogenen Linien geben dabei die Mitte der vorhandenen Frequenzbänder an. Die niederfrequenteren Formanten-107 und   109-zwischen   dem Nullpunkt und dem   Abszissenwert--101--bilden   das Phonem/W/, das im Wort "WED" aus zwei Frequenzen besteht, die beide im   Zeitintervall --115-- ansteigen.   Der Vokallaut des   Phonems/EH/besteht   aus drei   Formanten-103,   107 und 109--zwischen den   Abszissenwerten--101   und 105--. Der   Endkonnsonant/D/tritt   nach einer kurzen Pause anschliessend an den Vokal auf.

   Für eine gleichmässige verständliche Sprache ist es erforderlich, dass die Formanten zweier aneinander angrenzender Phoneme an den Verbindungen zwischen den Phonemen kontinuierlich ineinander übergehen. Die gestrichelte   Linie --101-- in Fig. l   bezeichnet einen solchen Übergang, nämlich den Übergang zwischen den   Phonemen/W/und/EH/,   die Formanten-107 und 109-gehen dort stetig ineinander über und setzen sich über die Verbindungsstelle ohne Unterbrechung fort. 



   Fig. 2 ist eine ähnliche Darstellung eines Spektrogramms des gesprochenen Wortes"WADE". Das Phonem /W/besteht aus zwei niederfrequenteren Formanten-207 und   209-im Zeitintervall-215-zwischen   dem Ursprung und einer ordinatenparallelen gestrichelten   Linie-201--.   Das Phonem/AY/besteht aus den drei   Formanten-203,   207 und   209-zwischen   den gestrichelten Linien-201 und 205-. Die Formanten der   Phoneme/W/und/AY/gehen   an der durch die   Linie --201-- bezeichneten   Verbindungsstelle stetig ineinander über.

   Ein Vergleich der Fig. l und 2 zeigt, dass das Phonem/W/in Wort"WED"eine Zeitspanne   - -115-- einnimmt,   die länger ist als die   Zeitspanne-215--,   die das   Phonem     Wort"WADE"dauert.   In Fig. l liegen ausserdem die beiden unteren Formanten-107 und   109-des Phonems/EH/bei   höheren Frequenzen als die beiden unteren Formanten-207 und   209-des Phomens/AY/in Fig. 2.   Die Formanten des   Phomens/W/im Wort"WADE"gemäss Fig. 2   sind ähnlich den Formanten des   Phonems/W/im Wort"WED"   gemäss Fig. l, wenn man die gleiche Zeitspanne betrachtet. Der wesentliche Unterschied zwischen den beiden Phonemen/W/besteht darin, dass dieses Phonem in Fig. 2 früher endet als in   Fig. 1.   



   Fig. 3 zeigt zwei Phoneme, die nicht miteinander verbunden, sondern durch ein Zeitintervall getrennt sind. 



  Der in Fig. 3 dargestellte Laut besteht also aus zwei vollständigen Phonemen, die für sich und getrennt ausgesprochen werden. 



   Wenn die beiden Phoneme, die in Fig. 3 dargestellt sind, bei der künstlichen Spracherzeugung verbunden werden sollen, ergäbe sich offensichtlich eine Unstetigkeit an der Verbindungsstelle, wenn man das zeitliche   Ende --311-- des   ersten Phonems mit dem   Beginn --312-- des   zweiten Phonems zusammenfallen liesse. Die   Formanten-303,   307 und 309-des ersten Phonems würden plötzlich enden und die Formanten 

 <Desc/Clms Page number 4> 

   - -313,   317 und   319--würden   unmittelbar darauf bei Frequenzen, die sich von denen der ersten Formanten unterscheiden, beginnen. Solche Frequenzsprünge würden Verzerrungen ergeben, durch die die Verständlichkeit der künstlich erzeugten Sprache stark leiden würde. 



   Verlängert man in Fig. 3 die Formanten am Anfang des zweiten Phonems durch Linien-327 und 329--, so schneiden diese Linien die Formanten-307 und 309-des ersten Phonems. Der den Schnittpunkten entsprechende   Zeitpunkt --321-- ist   ein Punkt, an dem das erste Phonem abgebrochen werden kann, um einen stetigen Übergang der Formanten des ersten Phonems in die des zweiten Phonems zu erreichen. Wenn die Schnittpunkte der jeweiligen Formanten nicht zeitlich zusammenfallen, wird der Beginn des zweiten Phonems so geändert, dass sie es tun. Kleinere Unstetigkeiten sind zulässig, so dass die Schnittpunkte zeitlich nicht ganz genau zusammenfallen müssen. 



   Wenn das erste Phonem in Fig. 3 im   Zeitpunkt --321--,   der dem beschriebenen Schnittpunkt entspricht, abgebrochen wird und man diesen Zeitpunkt mit dem   Beginn--312--des   zweiten Phonems zusammenfallen lässt, ergibt sich ein stetiger Übergang der Formanten. Dies ist in Fig. 4 dargestellt, in der die   Formanten-407   und   409-am Übergang--421-stetig verlaufen,   die kombinierten Phoneme in einem   Zeitpunkt --401--   beginnen, der dem   Zeitpunkt--301--des   Beginnes des ersten Phonems in Fig. 3 entspricht, und die kombinierten Phoneme im Zeitpunkt--405--enden, der zeitlich vor dem Endendes zweiten Phonems in Fig. 3 liegt. 



   Man kann eine kontinuierliche Folge von Phonemen in der oben beschriebenen Weise in paarweisen Gruppen zusammensetzen, um künstliche Sprache zu erzeugen. Eine Möglichkeit, solch eine Folge von Phonemen zu erzeugen, besteht darin, einzelne Phoneme auf einem Magnetband zu speichern, den Beginn und das Ende jedes Phonems abzuschneiden und die dabei erhaltenen Bandstücke in einer gewünschten Reihenfolge zusammenzusetzen. Beim Abspielen eines solchen Bandes erhält man dann eine verständliche Sprache. 



   Ein anderes Verfahren zur Realisierung dieser Technik besteht darin, die einzelnen Phoneme so zu speichern, dass ein Zugriff zu einem gewünschten Phonem, ein Beschneiden des Phonems und eine Wiedergabe in einer vorbestimmten Reihenfolge möglich ist, beispielsweise unter Steuerung durch eine programmgesteuerte Rechenanlage, um eine gewünschte gesprochene Information zu erzeugen. 



   Bei einem Ausführungsbeispiel der Erfindung werden die Phoneme digital gespeichert, indem periodische Proben der Amplitude der die einzelnen Phoneme darstellenden Schwingungen abgegriffen und die Amplitudenwerte dieser Proben in Binärzahlen umgesetzt werden. Die erhaltenen Binärzahlen werden dann für jedes Phonem der Reihe nach gespeichert. 



   Fig. 5 zeigt zwei Perioden einer typischen Schwingung. Die   Linie--501--gibt   den zeitlichen Verlauf der Amplitude der Schwingung zwischen dem Ursprung und dem Ende--503--der ersten Periode an. Vom Ende   - -503-- der ersten   Periode bis zum   Ende --505-- der   zweiten Periode hat die   Linie --501-- dann   wieder den gleichen Verlauf. Wenn die Amplitude einer solchen Schwingung mit einer entsprechend hohen Frequenz periodisch abgetastet wird, kann man eine Zahlenfolge gewinnen, die eine sehr gute Näherung des Amplitudenverlaufes der ursprünglichen Schwingung ergibt. Je mehr Abtastungen während einer Schwingungsperiode vorgenommen werden, umso genauer ist die Wiedergabe. 



   Fig. 6 zeigt ein Beispiel des Ergebnisses einer Abtastung der in Fig. 5 dargestellten Schwingung. Jede Probe   --601--   entspricht einem Momentanwert, der sich kontinuierlich ändernden Amplitude der Linie--501-in Fig. 5 zu einem entsprechenden Zeitpunkt. 



   Fig. 7 zeigt ein Ausführungsbeispiel, das nach dem oben erläuterten Verfahren arbeitet. Ein Phonem wird in 
 EMI4.1 
 Ausgangssignals des   Verstärkers-703-entspricht.   



   Die in Fig. 6 dargestellte Impulsfolge würde also dem Ausgangssignal der Torschaltung-705entsprechen, wenn das Ausgangssignal des   Verstärkers-703-den   in Fig. 5 dargestellten Verlauf hätte. 



   Bei dem vorliegenden Ausführungsbeispiel beträgt die Oszillatorfrequenz 14 kHz. Die Periode der Ausgangsimpulse der   Torschaltung --705-- beträgt   daher etwa   71, 5Ilsec. Jedem   Phonem sind 4096 Speicherplätze zugeordnet. Die maximal zulässige Länge eines Phonems beträgt daher 292, 8 msec. 



  Phoneme, die eine grössere Dauer als dieser Maximalwert haben, sind angehaltene Laute, also periodisch, und können erforderlichenfalls mehrmals abgefragt werde. Alle aperiodischen Phoneme sind kürzer als der oben angegebene Maximalwert. 



   Das Ausgangssignal des   Verstärkers-703-wird femer   durch eine   Diode --712-- gleichgerichtet,   und   in --709-- geglättet   und einer   Folge-Steuereinrichtung --715-- zugeführt.   Die Steuereinrichtung-715weist einen   schalter --725-- auf.   Wenn sich der   Schalter--725--in   der dargestellten Eingabe-Stellung befindet, bewirkt das Fehlen eines Gleichstromausgangssignals   von-709--,   dass die Steuereinrichtung --715-- einem Speicheradressenregister --714-- eines digitalen   Speichers--710--die   Adresse für den 

 <Desc/Clms Page number 5> 

 Anfang des nächsten Phonems zuführt.

   Die Anfangsadresse und die Endadresse werden von einer Lesevorrichtung --719-- geliefert, die aus irgendeiner bekannten Vorrichtung bestehen kann,   D.   einem Lochstreifenlesegerät, Kartenlesegerät, Magnetbandlesegerät usw. Man kann ferner auch einen Elektronenrechner oder eine andere komplizierte Steuereinrichtung verwenden. Die Endadresse wird in einem Register in der Steuereinrichtung --715-- gespeichert. 



   Das   Speicheradressenregister-714-besteht aus   Registern, die durch das Ausgangssignal des Oszillators   --711-- auf   die aufeinanderfolgenden Adressen eingestellt werden können. Das Ausgangssignal des Oszillators   --711-- wird   den Registern über eine Torschalung --727-- zugeführt, die während der Speicherung eines Phonems durch die Steuereinrichtung --715-- aufgetastet wird. 



   Das Ausgangssignal der   Torschaltung --705-- wird   durch einen Analog/Digital-Umsetzer --707-- in eine Binärzahl umgesetzt. Die Amplituden der Impulse können dabei beispielsweise in 128 Abschnitte unterteilt werden. Jeder Amplitudenwert kann dann durch eine Binärzahl aus sieben Bits dargestellt werden ; diese Binärzahlen können beginnend mit dem Dezimalnullwert (0000000 in Binärcode) und enden mit dem   Maximaldezimalwert-128--   (1111111 im Binärcode). Der Wechselspannungs-Nullpegel des Ausgangssignals des   Verstärkers --703-- ist normalerweise   gleich dem halben Wert des Ausgangssignals des Verstärkers (d. h. dezimal 64,1000000 im Binärcode). 



   In der Praxis wird der Wechselspannung-Nullwert um ungefähr 5% in bezug auf diesen Wert versetzt. Die Richtung hängt von der Anzahl der Phasenumkehrungen im Verstärker ab. Der Grund für diese Versetzung besteht darin, dass die Amplitude der Tonschwingungen, die durch das Ausstossen des Atems verursacht werden, grösser ist als die, welche durch Wirkungen der Muskeln im Kehlkopf verursacht werden. 



   Die siebenstellige Binärzahl vom   Umsetzer --707-- wird   in einem Speicher-Ausgangsregister-713- 
 EMI5.1 
 --711-- eingespeichert zu werden,Phonem in allen ihm zugeordneten Plätzen des   Speichers --710-- in   Form einer solchen Folge von digital codierten Signalen gespeichert worden ist, wird die Speicherung des laufenden Phonems als beendet angesehen. 



  Die Beendigung des Speichers wird durch eine Vergleichsschaltung --717-- bestimmt, die ein entsprechendes Signal an die   Steuereinrichtung --715-- liefert,   wenn sie feststellt, dass die in der Steuereinrichtung-715gespeicherte Endadresse mit der Adresse im Speicheradressenregister --714-- übereinstimmt. 



   Wenn alle für die Wiedergabe der Sprache erforderlichen Phoneme im   Speicher --710-- gespeichert   worden sind, wird der   schalter --725-- in   die in Fig. 7 untere Wiedergabestellung umgelegt. 



   Zur künstlichen Erzeugung von Sprache wird ein entsprechend vorbereiteter Aufzeichnungsträger in die Lesevorrichtung--719--eingesetzt. Der Aufzeichnungsträger enthält für jedes gewünschte Phonem zwei Binärzahlen, von denen die erste die Anfangsadresse und die zweite die Endadresse des Phonems im Speicher angibt. Die Anfangs- und Endadressen sind nicht notwendigerweise die erste und die letzte Speicherplatzadresse des betreffenden gespeicherten Phonems. Für jedes benötigte Phonem erscheinen zwei solche Adressen und die Phoneme folgen so aufeinander, dass sich die gewünschte Sprachinformation ergibt. 



   Die Anfangs- und Endadressen werden so gewählt, dass   1)   die im Speicher gespeicherte Binärzahl den Wert 1000000 hat und dass
2) die Formanten im Phonem bei Frequenzen liegen, die bei der Anfangsadresse einen stetigen Übergang mit den Frequenzen am Ende des vorangehenden Phonems und bei der Endadresse einen stetigen Übergang mit den Frequenzen des folgenden Phonems gewährleisten. 



   Die   Lesevorrichtung --719-- kann   eine programmgesteuerte digitale Datenverarbeitungsanlage sein und die Adressen können das Ergebnis von Rechnungen in der Datenverarbeitungsanlage bilden, so dass die resultierende Sprache Informationen über das Ergebnis der Rechnungen in der Datenverarbeitungsanlage liefert. 
 EMI5.2 
 gespeichert. 



   Die adressierte Phoneminformation wird aus dem Speicher herausgelesen und im Ausgangsregister   - -713-- gespeichert.   An das Ausgangsregister ist ein   Digital/Analog-Umsetzer-721-angeschlossen,   der eine Ausgangsspannung liefert, deren Amplitude durch den Wert der seinem Eingang zugeführten Binärzahl bestimmt wird. 



   Das   Speicheradressenregister-714-wird   dann durch die vom   Oszillator --711-- über   die 
 EMI5.3 
 entsprechend den Werten der dem Eingang des Umsetzers zugeführten Binärzahlen und sie wird einem elektroakustischen Wandler,   z. B.   einem   Lautsprecher-723-,   zugeführt, der hörbare Laute erzeugt. 



   Das   Speicheradressenregister-714-wird   so lange weitergeschaltet, bis es die zweite Adresse erreicht 
 EMI5.4 
 

 <Desc/Clms Page number 6> 

 
Wenn das Steuersignal, das das Erreichen der Endadresse anzeigt, eintrifft, nimmt die Steuereinrichtung   --715-- sofort   die nächsten beiden Adressen von der   Lesevorrichtung --719-- auf.   Das durch diese neuen Adressen bezeichnete Phonem wird dann aus dem Speicher herausgelesen und in der beschriebenen Weise in einen hörbaren Laut umgesetzt. 



   Die aufeinanderfolgenden Phoneme werden in der beschriebenen Weise verarbeitet, bis die   Steuereinrichtung --715-- von   der   Lesevorrichtung --719-- oder   einer andern äusseren Quelle ein Halt-Signal erhält. 



   Fig. 8 zeigt ein Ausführungsbeispiel der Erfindung, bei dem keine digitale Speichervorrichtung benötigt wird. 



   Die Einrichtung nach Fig. 8 enthält eine   Trommel --801--,   auf der die verschiedenen Phoneme jeweils auf getrennten Spuren analog gespeichert sind. Jeder Spur ist ein kombinierter Lese/Sprechkopf --803-zugeordnet. Die Trommel enthält ferner eine Taktspur, der ein eigener   Kopf --805-- zugeordnet   ist. 
 EMI6.1 
 entsprechenden   Kopfes --803-- wird   über einen Verstärker in der   Einrichtung --807-- mit   einem   Sprechkopf-813-verbunden,   der zur Aufzeichnung von Analoginformation auf einem Magnetband   -   821-- dient. 



   Durch Verwendung einer Indexmarke und der der   Steuereinrichtung --807-- vom   Taktspurkopf   --805-- zugeführten   Taktimpulse wird die richtige Anfangsstelle des adressierten Phonems auf der Trommel --801--bestimmt. 



   Bei der Feststellung der Anfangsstelle wird ein Antriebsmortor -811- für das Band--821--durch die   Steuereinrichtung --807-- eingeschaltet.   Die   Steuereinrichtung --807-- bewirkt   dann die Übertragung der Information zum Sprechkopf--813-, so dass der ausgewählte Teil des adressierten Phonems auf dem sich nun bewegenden   Band --821-- aufgezeichnet   wird. Wenn die Endadresse durch die Steuereinrichtung --807-- mit Hilfe der Taktimpulse vom   Kopf --805-- wahrgenommen   wird, werden der   Motor-SU--   und damit das   Band --821-- angehalten.   Die Übertragung des Signals vom gewählten   Kopf --803-- zum   Sprechkopf --813-- wird ausserdem gesperrt. 
 EMI6.2 
 



   Wenn das letzte Phonem verarbeitet worden ist, wird das   Band--821--durch   ein Signal von der Lesevorrichtung --809-- oder einer äusseren Quelle in seine Anfangslage zurückgespult. Anschliessend wird das Band wieder in Vorwärtsrichtung angetrieben, die aufgezeichneten Sprachsignale werden durch einen Lesekopf   - -815-- abgetastet,   in einem Verstärker --817-- verst1 rkt und durch einen   Lautsprecher-819-od. dgl.   wiedergegeben. 



   Das als letztes beschriebene Ausführungsbeispiel lässt sich in verschiedener Weise verfeinern. So kann   z. B.   die Drehrichtung der   Trommel--801--umgekehrt   und die Phoneme in umgekehrter Reihenfolge abgerufen werden. Bei der Wiedergabe braucht dann das Band nicht zurückgespult zu werden. Ausserdem kann das Abfragen der Phoneme von der Trommel und deren Aufzeichnung auf dem Band mit einer die spätere Abspielgeschwindigkeit übersteigenden Geschwindigkeit erfolgen. 



   Die Fig. 9 und 10 zeigen eine weitere Anlage, bei der die Erfindung angewendet werden kann. Als erstes soll die Beschickung der Anlage beschrieben werden. 



   Die in Fig. 9 dargestellte Einrichtung enthält eine Audio-Signalquelle-701'--, die an einen Eingang 
 EMI6.3 
 Momentanwerte der Amplitude des Audio-Signals zum Zeitpunkt der Taktimpulse wieder. Die Impulsamplituden können beispielsweise in 128 Abschnitte unterteilt sein. Jeder Grössenwert kann durch eine siebenstellige Binärzahl wiedergegeben werden, die von dem Minimalwert 0000000 bis zum Maximalwert 1111111 gehen. Die Wechselspannungsachse entspricht dem Dezimalwert 64 oder der Binärzahl 1000000. In der Praxis ist der Bezugspegel, wie oben bereits erläutert wurde, um 5% versetzt. 
 EMI6.4 
 



   Auf diese Weise werden im Kernspeicher, beginnend mit der niedrigsten Speichermasse, aufeinanderfolgende digitale Signale gespeichert, die das zu speichernde Phonem darstellen. Wenn der 

 <Desc/Clms Page number 7> 

 
 EMI7.1 
    --711'-- auf- -713'-- wird dadurch   gesperrt und verhindert ein Weiterschalten des Adressenzählers --711'--. Die   Torschaltung--715'--wird   ebenfalls gesperrt, so dass dem Kernspeicher--17--keine weiteren Speicherkommandos mehr zugeführt werden. Der Zustand der bistabilen Schaltung --709'-- nach der beschriebenen zweiten Umschaltung ermöglicht das Umschalten einer zweiten bistabilen Schaltung--719'--. 



  Die zweite bistabile   Schaltung --719'-- wird   umgeschaltet, nachdem sie durch den ersten Indeximpuls von 
 EMI7.2 
 speichernde digitale Signal tritt ein Sektortaktsignal auf. Jedes der im   Kernspeicher--17--gespeicherten   digitalen Signale besteht bei dem vorliegenden Ausführungsbeispiel aus sieben Binärziffern. Die sieben Binärziffern jedes Signals werden parallel, d. h. gleichzeitig, im Kernspeicher--17--gespeichert bzw. aus diesem herausgelesen. Auf der   Trommel --21-- werden   die sieben Binärziffern jedes Signals serienmässig,   d. h.   nacheinander gespeichert.

   Das Sektortaktsignal von der Trommel --21-- schaltet den Adressenzähler   --711'--   um einen Speicherplatz weiter und liefert ein Steuersignal (Lesekommando), das den Kernspeicher   --17-- veranlasst,   ein digitales Signal an einen Parallel/Serien-Umsetzer--725'--abzugeben. Diese beiden Funktionen des Sektortaktsignals werden nur dann durchgeführt, wenn die   Torschaltung--723'--durch   die zweite bistabile   Schaltung--719'--durchlassfähig   gemacht worden ist. Eine weitere Funktion des impulsförmigen Sektortaktsignals besteht darin, das aus dem Kernspeicher--17--herausgelesene Signal zum   Parallel/Serien-Umsetzer-725'-durchzuschleusen.   



   Der   Parallel/Serien-Umsetzer-725'-besteht   lediglich aus einem siebenstufigen Schieberegister, in das das Ausgangssignal des Kernspeichers--17--parallel eingespeichert wird, während das Ausgangssignal von der letzten Stufe, in die die gespeicherten Signale der Reihe nach verschoben werden, abgenommen wird. Für jedes Bit, das vom   Umsetzer --725'-- auf   die   Trommel --21-- übertragen   wird, liefert die Trommel-21- 
 EMI7.3 
 



   Der bei dem vorliegenden Ausführungsbeispiel verwendete $Adressenzähler --711'-- arbeitet modulo 4096. Das heisst, dass der   Adressenzähler --711-- von   der Dezimalzahl4095 (entsprechend der   Binärzahll11111111111) auf 0   (in Binärziffern 0000000000000) schaltet. Die Beschickung des Kernspeichers   --17--   ist beendet, wenn der   Adressenzähler --711'-- den   Zählwert 4095 erreicht hat. Das erste Sektortaktsignal von der Torschaltung --723'-- schaltet dann den Adressenzähler --711'-- auf 0, so dass die Entnahme der aufeinanderfolgenden digitalen Signale bei der ersten Adresse des Kernspeichers--17--beginnt.

   Die Zahl der digitalen Signale, die vom   Kernspeicher --17-- über   den   Umsetzer --725'-- auf   die Trommel   --21-- übertragen   wird, kann kleiner als 4096 sein. Es ist daher erforderlich, den   Adressenzähler--711'--   durch den Speicherkommandoimpuls von der   Quelle --707'-- vor   der Beschickung des Kemspeichers   - -17 -- zurückzustellen.    



   Die Übertragung vom Kernspeicher --17-- auf die   Trommel --21-- setzt   sich so lange fort, bis ein weiterer Indeximpuls von der   Trommel--21--,   der anzeigt, dass die Trommel eine vollständige Umdrehung ausgeführt hat, die zeite bistabile Schaltung --719'-- umschaltet. Die   Torschaltung --723'-- wird   dadurch gesperrt und verhindert ein Weiterschalten des Adressenzählers und die Zuführung weiterer Kommandosignale zum   Kernspeicher-17--.   



   Die jeweils aus sieben Binärziffern bestehenden digitalen Signale, die ein Phonem darstellen, werden also serienmässig auf einer Spur der Trommel--21--aufgezeichnet, während diese eine Umdrehung vollführt. Weitere Phoneme werden auf andern Spuren der   Trommel --21-- mit andern   Köpfen, die in Axialrichtung längs der Trommeloberfläche verteilt sind, gespeichert. Bei dem vorliegenden Ausführungsbeispiel sind 128 solcher Datenspuren vorhanden. Die Index-Sektor- und Taktimpulse sind jeweils auf einer getrennten Spur aufgezeichnet. Zwischen den Sektorsignalen treten jeweils sieben Taktsignale auf und zwischen den während jeder Umdrehung einmal auftretenden Indeximpulsen liegen etwa 4000 Sektorimpulse. Jede Spur enthält ein einzelnes Phonem. Während der Beschickung können die Spuren von Hand ausgewählt werden, beispielsweise mit Hilfe von Schaltern.

   Durch Wahl eines der Datenköpfe kann das zugehörige Phonem aufgezeichnet und später wiedergewonnen werden. 



   Nachdem alle zu verwendenden Phoneme aufgezeichnet worden sind, kann eine gewünschte Folge von Phonemen zur synthetischen Spracherzeugung von der Trommel abgelesen und abwechselnd einem von zwei Kernspeichern zugeführt werden. Die Phoneme werden dann aus den Kernspeichern in der gleichen Reihenfolge entnommen, beschnitten, um einen stetigen Übergang der Laute zu gewährleisten, und in hörbare Laute umgesetzt. Die Übertragung eines Phonems von der Trommel in den einen Kernspeicher und die Entnahme eines Phonems aus dem andern Kernspeicher zur Umsetzung in einen hörbaren Laut erfolgt gleichzeitig. Wie dies im einzelnen geschieht, soll nun an Hand von Fig. 10 erläutert werden. 

 <Desc/Clms Page number 8> 

 



   Jedem wiederzugebenden Phonem sind drei Zahlen zugeordnet. Die erste Zahl gibt an, welche Spur der   Trommel--21--abgelesen,   also welches Phonem gewählt werden soll. Die zweite Zahl gibt die Anfangsstelle und die dritte Zahl die Endstelle an. Die zweite und dritte Zahl, die zugeführt werden, um die Anfangsstelle und die Endstelle des gewählten Phonems anzugeben, werden verzögert, bis das gewählte Phonem in der unten noch zu beschreibenden Weise von der Trommel abgelesen worden ist. Diese Zahlen können bei dem dargestellten Ausführungsbeispiel durch eine von Hand steuerbare   Vorrichtung--831--oder   durch ein Lochstreifenlesegerät   --833--   eingegeben werden. Selbstverständlich können diese Zahlen auch durch eine kompliziertere Einrichtung geliefert werden,   z.

   B.   durch eine digitale Datenverarbeitungsanlage. Anfangs- und Endstelle werden so gewählt, dass die dadurch bewirkte Beschneidung des jeweiligen Phonems einen stetigen Übergang mit dem vorangehenden bzw. folgenden Phonem gewährleistet. Die Anfangs- und Endadressen werden so gewählt, dass   1)   der Wert der Binärzahl höchstens 5% von 64 (1000000) abweicht, und dass
2) die Formanten im Phonem Frequenzen aufweisen, die bei der Anfangsadresse stetig in die am Ende des vorangehenden Phonems übergehen, und an der Endadresse stetig in die am Anfang des folgenden
Phonems übergehen. 



   Die erste Zahl wird von der Handsteuervorrichtung --831-- oder dem Papierstreifen- bzw. 
 EMI8.1 
 der Trommel --21-- abgelesen und in einem der beiden Kernspeicher-17 oder   827-gespeichert.   



   Zwei Vorgänge laufen gleichzeitig   ab :   Erstens wird ein Phonem von der   Trommel--21--in   den Kernspeicher--17 oder   827--übertragen   und zweitens wird das Phonem aus dem jeweils andern Kernspeicher herausgelesen und in einen hörbaren Laut umgesetzt. Welches Register bei der ersten und welches bei der zweiten Operation mitwirkt, wird durch eine bistabile Schaltung--843--bestimmt. Zur Erläuterung sei angenommen, dass der   A-Ausgang --847-- der   bistabilen   Schaltung --843-- positiv   ("richtig") und der   B-Ausgang--845--negativ   ("falsch") ist. Für die zu beschreibenden Operationen spielt es keine Rolle, welcher Ausgang zuerst positiv (richtig) ist. 



   Die erste Operation, bei der ein Phonem von der   Trommel--821--in   den einen Kernspeicher 
 EMI8.2 
 in dem   Torschaltungen-851   und 853--, die zur   Speicherung --827-- dienen,   durchlassbereit gemacht werden. Die Adresse für die Speicherung der jeweils aus sieben Binärziffern bestehenden Zeichen wird dem 
 EMI8.3 
 
Zähler-811-überKernspeicher --827-- durch eine geöffnete Torschaltung --853-- zugeführt werden, um die Speicherung der sieben Binärziffern vom   Umsetzer --859-- zu   bewirken, ausserdem wird der   Zähler-811-durch   das Sektorsignal um einen Schritt weitergeschaltet.

   Die aufeinanderfolgenden siebenstelligen binären Phonemsignale werden also von der   Trommel --21-- über   den   Umsetzer --849-- in   den Kernspeicher-82-eingespeichert. Der   Zähler-811-schaltet   von 4095 auf 0 zurück, so dass maximal 4096 Zeichen übertragen werden können. Wenn die   Trommel--21-- eine   vollständige Umdrehung ausgeführt hat, sind alle Zeichen, die ein vollständiges Phonem darstellen, in den   B-Speicher--827--übertragen.   Der Zähler --811-- wird durch einen Indeximpls auf 0 zurückgestellt und, wenn sich der Zustand der bistabilen   Schaltung --843-- nicht   ändert, wird dieselbe Folge von Zeichen erneut übertragen, ohne dass dadurch der Inhalt des B-Speichers   --827-- geändert   wird. 



   Die mit der oben beschriebenen ersten Operation gleichzeitig ablaufende zweite Operation, bei der die Siengle aus dem andern Kernspeicher herausgelesen und in einen hörbaren Laut umgesetzt werden, verläuft wie folgt : 
 EMI8.4 
 

 <Desc/Clms Page number 9> 

 
 EMI9.1 
 Phonemsignale herausgelesen, bis die Zahl im   Lesezähler--837--gleich   der Zahl im Endstellenregister   --841-- ist.   Die   Obereinstimmung   dieser Zahlen wird durch eine Vergleichasschaltung --869-- festgestellt, deren Ausgangssignal die bistabile   Schaltung --843-- umschaltet   und das   Lesegerät-833-veranlasst,   die zweite und dritte Zahl für das Phonem,

   das gerade von der   Trommel --21-- in   den   B-Kernspeicher-827--   übertragen wird sowie die erste Zahl für das als nächstes so zu übertragende Phonem zu liefern. 



   Durch die Umschaltung der bistabilen   Schaltung --843-- wird   der   B-Ausgang-845--,   der vorher negativ ("falsch") war, positiv ("richtig") und der   A-Ausgang-847--,   der vorher positiv war, negativ. 
 EMI9.2 
 zeitlichen Steuerung zugeführt, und das Ausgangssignal des   Umsetzers-849-wird   beiden Speichern zugeführt. Der positive   B-Ausgang-845-der   bistabilen   Schaltung --843-- öffnet   die Gatter-871 und 873--, die für das Speichern im   A-Kernspeicher--17--vorgesehen   sind. Genauer gesagt, werden die Sektortaktimpulse über das geöffnete   Gatter --871-- und   die Adresse über das geöffnete Gatter-873- 
 EMI9.3 
 erste Operation wird also nun mit dem andern Kernspeicher durchgeführt. 



   Die zweite Operation wird ebenfalls mit einem andern Kernspeicher wie vorher durchgeführt, da der positive   B-Ausgang-845-der   bistabilen   Schaltung-843-die Torschaltungen-875,   877 und 879--, die zum Abfragen des   B-Kernspeichers-827-dienen,   öffnet. Dem   Speicher --827-- werden   die Taktimpulse vom   Oszillator --861-- über   die geöffnete   Torschaltung --875-- und   die Adresse vom 
 EMI9.4 
    --837-- über-   879-- zugeführt wird. Die entsprechenden   Torschaltungen-855,   859 und 857-des A-Kernspeichers --17-- sind gesperrt, da der   A-Ausgang --847-- der   bistabilen   Schaltung --843-- nun   negativ ist. 



   Das abwechselnde Abfragen und Speichern wird mit den beiden Kernspeichern fortgesetzt, bis alle gewünschten Phoneme, die gewählt worden sind, in hörbare Laute umgesetzt worden sind. Bei dem beschriebenen Ausführungsbeispiel läuft die   Trommel --21-- mit   einer Drehzahl von 1800 Umdr/min. Für die Übertragung eines ganzen Phonems ist eine Umdrehung der Trommel erforderlich. Für die Übertragung eines Phonems von der Trommel in den Kernspeicher werden daher ungefähr 34 msec benötigt. Ausserdem ist eine Latenzzeit, also eine Warteperiode für den Indeximpuls vorgesehen, die annähernd 34 msec beträgt. Die Frequenz, mit der die Information aus dem andern Kernspeicher herausgelesen wird, beträgt 14 kHz, so dass in jeweils   its   ein Zeichen herausgelesen wird.

   Die Übertragung eines Phonems in einen Kernspeicher erfordert also eine Zeitspanne, in der etwa 950 Zeichen aus dem andern Kernspeicher herausgelesen werden könen. Das maximale Fassungsvermögen der Kernspeicher beträgt jeweils 4096 Zeichen, aber so viele Zeichen werden niemals abgefragt, da das Phonem am Anfang und am Ende beschnitten wird. Die Anzahl der herausgelesenen Zeichen überschreitet jedoch immer das Minimum, das erforderlich ist, um den andern Kernspeicher von der Trommel zu beschicken. Die für die Einstellung einer neuen Anfangsstelle erforderliche Zeitspanne ist so kurz, dass keine Unstetigkeit in dem erzeugten Laut wahrgenommen werden kann. Das Ausgangssignal des   Digital/Analog-Umsetzers-863-wird   so lange aufrechterhalten, dass kleinere Unstetigkeiten vermieden werden, die sonst unter Umständen eintreten könnten. 



   Die vom Lochstreifenlesegerät --833-- oder einer entsprechenden Steuervorrichtung, wie einer digitalen Rechenanlage, gelieferten Zahlen werden so gewählt, dass die für die künstlich zu erzeugende Sprache erzeugenden Phoneme in der richtigen Reihenfolge ausgewählt und für eine optimale Verständlichkeit in der beschriebenen Weise beschnitten werden. 



   Bei einem weiteren möglichen Ausführungsbeispiel der Erfindung, das nur einen Kernspeicher enthält, wird von der Trommel jeweils nur derjenige Teil der verschiedenen Phoneme abgelesen, der wiederzugeben ist, und alle abgelesenen Phonemteile werden serienmässig in einem grossen Kernspeicher gespeichert. Die Abfrage von der Trommel und die übertragung in den Kernspeicher beginnt dann bei der ersten oder niedrigsten Kernspeicheradresse. Wenn die letzte oder höchste Kernspeicheradresse erreicht ist, beginnt die Übertragung wieder mit der ersten Adresse. Das Herauslesen der in Analogsignale umzusetzenden digitalen Signale aus dem Kernspeicher beginnt mit der ersten Adresse und setzt sich bis zur letzten Adresse fort, worauf das Herauslesen wieder bei der ersten Adresse beginnt.

   Eine geeignete Anordnung, die ein Ablesen eines Phonems von der Trommel für eine bestimmte Anzahl von Trommelumdrehungen verhindert, gewährleistet die richtigen Zeitbeziehungen.

Claims (1)

  1. PATENTANSPRÜCHE : 1. Einrichtung zur Synthetisierung von Audio-Informationen, insbesondere der menschlichen Sprache, mit einem ersten in zugeordneten Bereichen Phonemdarstellungen vorzugsweise in digitaler Form aufnehmenden Speicher, einer Steuereinrichtung zur Entnahme des Inhaltes der Abschnitte des ersten Speichers in jeder gewünschten Reihenfolge in Abhängigkeit von der Steuereinrichtung zuführbaren den einzelnen Phonemen zugeordneten Kennzahlen und einem ersten Umsetzer zur Umwandlung der entnommenen Speicherinhalte in Audio-Signale, d a d u r c h g e k e n nfiz e i c h n e t, dass die Steuereinrichtung Schaltungen aufweist, welche einen Teil der Phonemdarstellung von ihrem zugeordneten Bereich des ersten Speichers entnimmt,
    wobei dieser Teil einer jeden solchen Phonemdarstellung innerhalb ihres Bereiches des ersten Speichers durch Anfang und Ende auswählbar ist und Anfang und Ende des Teiles durch die Kennzahlen festlegbar sind. EMI10.1 zweiten Speicher (17) zur Zwischenspeicherung von mindestens zwei Teilen von dem ersten Speicher entnommenen Phonemdarstellungen besitzt und die Steuereinrichtung zur Entnahme der im zweiten Speicher gespeicherten Phoneme dient, um diese in kontinuierliche elektrische Signale umzuwandeln. EMI10.2 Speichereinheiten (17 bzw.
    827) besteht, welche einem vollständigen Phonem zugeordnete Signale speichern, und die Steuereinrichtung (insbesondere 835 einschliesslich 811,843, 851,855, 859,873, 875) die Zuführung von gewünschten Folgen von besagten Teilen von Phonemdarstellungen, welche den vollständigen dem ersten Speicher entnommenen Phonemen entsprechen, abwechselnd in die erste und zweite Speichereinheit steuert und von der Steuereinrichtung (über 843,855, 859,875, 877) aus den beiden Speichereinheiten abwechselnd digital codierte Darstellungen der Phoneme in der Reihenfolge, in der die Phoneme aus dem ersten Speicher entnommen wurden, herausgelesen werden.
    EMI10.3 von elektrischen Signalen aus Audio-Phonemen (von 701, 703), welche Phonemdarstellungen sind, ein zweiter Umsetzer (707) vorgesehen ist und dass die Steuereinrichtung (zusätzlich 707) die Speicherung jeder Gruppen von erzeugten Signalen in einer vorgegebenen Reihenfolge im entsprechenden Bereich des ersten Speichers steuert. EMI10.4 Torschaltung (705) zum Abtasten der Amplitude des den Audio-Phonemen zugeordneten elektrischen Signals in geeigneten Zeitintervallen und eine Codiervorrichtung (707) zur Codierung der Amplituden der Signalproben in digital codierte Signale zur Speicherung im ersten Speicher einschliesst.
    6. Verwendung der Einrichtung nach einem der Ansprüche 1 bis 5 zur Synthetisierung von EMI10.5 Kennzahlen, welche den Anfang und das Ende des Teiles des auszulesenden Phonems angeben, so gewählt werden, dass die Übergänge zwischen dem vorangegangenen, dem auszuwählenden und dem nachfolgenden Phonem einen stetigen Verlauf der Formanten dieser Phoneme aufweisen.
AT1215768A 1968-02-26 1968-12-13 Einrichtung zur Synthetisierung von Audio-Informationen AT311077B (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US70932368A 1968-02-26 1968-02-26
US70838968A 1968-02-26 1968-02-26

Publications (1)

Publication Number Publication Date
AT311077B true AT311077B (de) 1973-10-25

Family

ID=27108071

Family Applications (1)

Application Number Title Priority Date Filing Date
AT1215768A AT311077B (de) 1968-02-26 1968-12-13 Einrichtung zur Synthetisierung von Audio-Informationen

Country Status (2)

Country Link
AT (1) AT311077B (de)
SE (1) SE342708B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3034756A1 (de) * 1979-09-18 1981-04-02 Victor Company Of Japan, Ltd., Yokohama, Kanagawa Digitales schneidegeraet fuer audioprogramme

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3034756A1 (de) * 1979-09-18 1981-04-02 Victor Company Of Japan, Ltd., Yokohama, Kanagawa Digitales schneidegeraet fuer audioprogramme

Also Published As

Publication number Publication date
SE342708B (de) 1972-02-14

Similar Documents

Publication Publication Date Title
DE2918533C2 (de)
DE2050512C3 (de) Vorrichtung zur Ableitung von Sprachparametern und zur Erzeugung synthetischer Sprache
DE2740520A1 (de) Verfahren und anordnung zur synthese von sprache
DE1472004A1 (de) Verfahren und Anordnung zur Aufbereitung von gespeicherten Sprachsignalen
DE2850286A1 (de) Elektronische schlagwerksuhr
DE2920298A1 (de) Binaere interpolatorschaltung fuer ein elektronisches musikinstrument
DE9006717U1 (de) Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
DE1965480A1 (de) Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache
EP0042555B1 (de) Verfahren zur digitalen Hüllkurvensteuerung eines polyphonen Musiksyntheseinstruments und Schaltungsanordnung zur Durchführung des Verfahrens
DE19861167A1 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
DE69233622T2 (de) Vorrichtung zur Erzeugung von Ansagen
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
DE2836738A1 (de) Verfahren und vorrichtung zur ausdruckskodierung bei der aufnahme von der tastatur eines elektronischen klaviers
AT311077B (de) Einrichtung zur Synthetisierung von Audio-Informationen
DE2836736B2 (de) Verfahren zur Aufzeichnung von beim Spielen eines tastenbetätigten Musikinstruments entstehenden Tonsignalen und den damit verbundenen Spielausdrücken, insbesondere der Lautstärke, entsprechenden Datensignalfolgen auf einem Aufzeichnungsträger und Vorrichtung zur Durchführung des Verfahrens
DE3236830C2 (de) Elektronische Uhr mit Schallspeicherung
DE3100934A1 (de) Verfahren zur erzeugung einer seriellen tastenimpulsinformation mit einer ersten abtastwiederholfrequenz in abhaengigkeit von einer asynchron mit einer zweiten abtastwiederholfrequenz erzeugten seriellen multiplex-tasten-impulsformation sowie schnittstelleneinrichtung zur durchfuehrung des verfahrens
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
DE1803621A1 (de) Einrichtung zur Synthetisierung der menschlichen Sprache
DE19841683A1 (de) Vorrichtung und Verfahren zur digitalen Sprachbearbeitung
DE3215868A1 (de) Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette
DE2335818C3 (de) Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen
DE3232835C2 (de)
DE2531006A1 (de) System zur synthese von sprache im zeitbereich aus doppellauten und lautelementen
EP0157903B1 (de) Verfahren und Anordnung für die Sprachsynthese