DE1965480B2 - Geraet zur umwandlung eines in graphischen zeichen gedruckten textes in gesprochene worte - Google Patents
Geraet zur umwandlung eines in graphischen zeichen gedruckten textes in gesprochene worteInfo
- Publication number
- DE1965480B2 DE1965480B2 DE19691965480 DE1965480A DE1965480B2 DE 1965480 B2 DE1965480 B2 DE 1965480B2 DE 19691965480 DE19691965480 DE 19691965480 DE 1965480 A DE1965480 A DE 1965480A DE 1965480 B2 DE1965480 B2 DE 1965480B2
- Authority
- DE
- Germany
- Prior art keywords
- coded
- phoneme
- words
- frequency
- phonemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 2
- 210000001260 vocal cord Anatomy 0.000 claims description 2
- 230000004888 barrier function Effects 0.000 claims 1
- 230000006870 function Effects 0.000 claims 1
- 230000008447 perception Effects 0.000 claims 1
- 230000035807 sensation Effects 0.000 claims 1
- 230000002459 sustained effect Effects 0.000 claims 1
- 239000004020 conductor Substances 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 230000010355 oscillation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 101000889850 Xenopus laevis Testin Proteins 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Document Processing Apparatus (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
indlung !xtes in lung jegruppe,
'honem nwandien kogruppe, inemen η Speidie
jer möggleichs-,ezeichuerung •ewirkt,
;it von hließen a Pho-ϊ
wähin.
ial entedenen
nation, idenen st man
ι usw. ag ani sich, vo der iem er
Satz: euten: men «, näher - Vers der ; notiere«
bat: ;nden zeigt, it der ortes, rundidene
dem. uenzr, die uenzihöhe klar
s Linfor- nien-
geflüsterter Sprache gut ist, welche gemäß Definition
kein Lmienspektrum uaif aßt, da man die dieses Spektrum
erzeugenden Stimmbänder abschaltet. Diese einfache Feststellung zeigt, daß die flüstergefilterte
zeigen die Fig, I18 bis I24 die analogen Sonagramme
der Phonatome dei deutschen Sprache DI, IJ, J*.
PR, RA, AR, Rf und stellt die Fig. 23 die Worter
DIE SPRACHE dar;
einfache Feststellung zeigt, aaa cue nusiergcuucnc ^*^^*~~—~ ,
Stimme über 4000Hz die Gesamtheit der semanti- 5 veranschaulichen die Fig. I25 bis
schen Information enthält.
Ein Wort muß als ein Programm von Bewegungen des phonetischen Apparates betrachtet werden. Dieses
Programm findet sich integral in den »Sonagram-(Sk) flürt Stin unter
die analogen
Sonagramme der Phorlatome ^e? italiemschen
Sprache LA, AP, PA, AR, RO. DU DD und stellt
die Fig. 24 die Wörter LA PAROLA dar,
ses Programm findet sich integral in den »Sonagram- veranschaulichen die Fi g. I32^ bis I^ e^ an
men« (Spektrogrammen) geflüsterter Stimmen unter 10 Sonagramme der Phonatome der japan^cüen^
dem Aspekt einer zeitlichen Struktur wieder, wo man KO, OT, TO, OB, BA, und die Fig. I5 sieiu
alle Elemente des Arbeitens des phonetischen Appa- Wort KOBOTA dar; rates wiederfinden kann. Kurz, das sonographische veranschaulichen die h ι g. I37 w>
^41 Bild einer flüstergefilterten Stimme stellt sich als eine Sonagramme der Phonatome α er
originale Globalform dar, die unmöglich mit einer 15 SpracheUU, UR, Όε, η, ι , unu u
anderen verwechselt werden kann und genügend das Wort ORDET dar;
stereotypiert ist, damit sie von einer Person zur an- veranschaulichen die * ig. x« ^ «Aü ud DU,
deren ohne jede Mehrdeutigkeit erkannt werden Sonagramme der englischen: SpracheAU, υίΛ£' ,
kann. Dieses Bild ist in der TaI das akustische Skelett UJ, JU, UD, DU, und die F1 g. 27 stellt die wor
des Wortes und stellt das notwendige und ausrei- 20 How do you do dan
chende Minimum dar, um es erkennen zu können. J£ ^^«phÄ abhält in der
vorliegenden Beschreibung die Zahl von 28 Phonemen fest, deren Liste die folgende ist:
stellt analogen
R | I |
E | e |
L | D |
A | O |
S | K |
T | N |
e | P |
M an on U V
1 weich B
J Z
ou in
ghart ch F
Man muß daran erinnern, daß ein »Sonagramm« eine Darstellung eines Tones in einer Zeit-Frequenzebene ist, wobei die Amplitude durch einen Strich
oder durch mehr oder minder dunkergraue Linien 25 veranschaulicht wird.
Ein Wort verstehen heißt also, eine akustische
Form identifizieren. Jede repräsentative Globalform
eines Wortes kann in Elemente verbindbarer Form
zerlegt werden. Jedes dieser Formelemente entspricht 30
nicht einem Phonem, sondern einer Bewegung des
phonetischen Apparates zwischen zwei benachbarten
Phonemen. Ein Wort ist also nicht phonetisch in
Phoneme, sondern in phonetische Elemente zerleg- Es ist möglich, diese Phoneme auf Zeilen und bar, welche Vereinigungen von zwei Phonemen sind 35 Spalten zu verteilen und einem Phonem der Zeile und welche man, in Anbetracht ihres unteilbaren und einem Phonem der Spalte ein Phonatom entspre-Charakters in der Folge »Phonatome« (Phonem- chen zu lassen, das auf dem Kreuzungspunkt dieser paare) nennen wird. Zeile und dieser Spalte liegt. Derart kann ein Phon-So ist z. B. das französisch gesprochene Wort atom durch zwei Adressen mit fünf Binärziffern de-PARIS nicht die Summe von vier Phonemen 4° finieit werden, deren erste die Adresse des ersten P. A, R, I, sondern die Verkettung von drei Phon- Phonems in der Zeile und deren zweite die Adresse atomen PA-AR-RI oder von vier Phonatomen des zweiten Phonems in der Spalte ist. PA-AR-RI-II, wenn sich das Wort PARIS allein Die Fig. 3 veranschaulicht die Phoneme in der oder am Ende eines Satzes befindet. Form einer Matrix. An jedem Kreuzungspunkt der Die analogen Sonagramme der Ponatome, wovon 45 Matrix entsprechend zwei Phonemen ist die auftredie digitalisierten Sonagramme abgeleitet werden, tende Frequenz des durch diese zwei Phoneme geweichein dem Gerät der vorliegenden Erfindung be- ' ''' * "" nutzt werden, sind idealisierte und standardisierte
Sonagramme. Man geht von einem Sonagramm der
rohen, geflüsterten Stimme aus, die mit einem »Sona- 5°
graph« registriert wird. Dieses Sonagramm wird verfeinert, indem man es für die Verständlichkeit frei
macht von allen seinen nicht bedeutsamen Elementen, die gerahmt und begrenzt werden in Zeit und es ist zwm uci«u> «,«.» . ----
Form identifizieren. Jede repräsentative Globalform
eines Wortes kann in Elemente verbindbarer Form
zerlegt werden. Jedes dieser Formelemente entspricht 30
nicht einem Phonem, sondern einer Bewegung des
phonetischen Apparates zwischen zwei benachbarten
Phonemen. Ein Wort ist also nicht phonetisch in
Phoneme, sondern in phonetische Elemente zerleg- Es ist möglich, diese Phoneme auf Zeilen und bar, welche Vereinigungen von zwei Phonemen sind 35 Spalten zu verteilen und einem Phonem der Zeile und welche man, in Anbetracht ihres unteilbaren und einem Phonem der Spalte ein Phonatom entspre-Charakters in der Folge »Phonatome« (Phonem- chen zu lassen, das auf dem Kreuzungspunkt dieser paare) nennen wird. Zeile und dieser Spalte liegt. Derart kann ein Phon-So ist z. B. das französisch gesprochene Wort atom durch zwei Adressen mit fünf Binärziffern de-PARIS nicht die Summe von vier Phonemen 4° finieit werden, deren erste die Adresse des ersten P. A, R, I, sondern die Verkettung von drei Phon- Phonems in der Zeile und deren zweite die Adresse atomen PA-AR-RI oder von vier Phonatomen des zweiten Phonems in der Spalte ist. PA-AR-RI-II, wenn sich das Wort PARIS allein Die Fig. 3 veranschaulicht die Phoneme in der oder am Ende eines Satzes befindet. Form einer Matrix. An jedem Kreuzungspunkt der Die analogen Sonagramme der Ponatome, wovon 45 Matrix entsprechend zwei Phonemen ist die auftredie digitalisierten Sonagramme abgeleitet werden, tende Frequenz des durch diese zwei Phoneme geweichein dem Gerät der vorliegenden Erfindung be- ' ''' * "" nutzt werden, sind idealisierte und standardisierte
Sonagramme. Man geht von einem Sonagramm der
rohen, geflüsterten Stimme aus, die mit einem »Sona- 5°
graph« registriert wird. Dieses Sonagramm wird verfeinert, indem man es für die Verständlichkeit frei
macht von allen seinen nicht bedeutsamen Elementen, die gerahmt und begrenzt werden in Zeit und es ist zwm uci«u> «,«.» . ----
Frequenz. Das derart verfeinerte Sonagramm wird 55 rung von Sprachsignalen durch stilisierte Visibledigitalisiert,
wie weiter unten beschrieben ist, und in Speech-Spektrogramme bekanntgeworden, bei weldem
Gerät der Erfindung erprobt, um seine Ver- chem eine binärkodierte Bezifferung der Phoneme
ständlichkeit zu prüfen. vorgenommen wird, doch hat dieses Verfahren den
Die Fig. I1 bis I13 veranschaulichen jeweils die Nachteil, daß jedes Spektrogramm in Analogform
analogen Sonagramme der Phonatome der französi- 60 gespeichert und dementsprechend auch in Analogschen
Sprache NO, SO, BO, TO, RO, NI, SI, BI, form abgelesen wird.
TI, RI, PA, AR, RI, und die Fig. 2, veranschaulicht Die gestellte Aufgabe wird erfindungsgemäß da-
das analoge Sonagramm des Wortes PARIS in fran- durch gelöst, daß jedes der Spektrogramme in Form
zösischer Aussprache. einer Folge von binärkodierten Wörtern in demSpei-
In einer ähnlichen Form stellen die Fig. I14WsI17 65 cherwerk gespeichert ist, deren jedes die binärdie
analogen Sonagramme der Phonatome der rus- kodierte Übersetzung eines transformierten Spektrosischen
Sprache RJ, Je, εΤ, Tf dar und veranschau- gramms darstellt, das aus in der Zeit/Frequenzlicht die F i g. 2, das Wort PEY; Ebene entlang von Konstantzeitlinien mit gleichmaßi-
bildeten Phonatoms in °/00 eingetragen
Zum Beispiel beträgt die Frequenz des Phouatoms PA in einem klassischen französischen Text 7 °/00.
Der Erfindung liegt die Aufgabe zugrunde, ein Gerät der eingangs genannten Art zu schaffen, das eine
verbesserte Umwandlung eines gedruckten Textes in gesprochene Wörter erlaubt.
Es ist zwar bereits ein Verfahren zur Kodie-
gen Frequenzintervallen diskret verteilten Punkten besteht, die jeweils einem Amplitudenwert »Eins«
oder »Null« des Spektrogramms entsprechen, während jede dieser Linien einem von mit gleichmäßigen
als auch in der Frequenzrichtung vorhanden sind. Jeder dieser Punkte besitzt eine von zwei physikalischen
Bedingungen, welche die Werte »Eins« und »Null« darstellen (und welche schwarze und weiße
Intervallen in dem Spektrogramm verteilten Zeit- 5 Punkte sein können, wenn es sich beispielsweise um
punkten entspricht, wodurch das aufeinanderfolgende Sonagramme handelt, die mittels lichtelektrischer
Ablesen dieser Wörter binärkodierte Steuersignale für Wandler abgelesen werden sollen),
die Steuerung der Wiedergabemittel direkt liefert. Auf Grund dieser Struktur ist es möglich, in einer
die Steuerung der Wiedergabemittel direkt liefert. Auf Grund dieser Struktur ist es möglich, in einer
Das Gerät gemäß der Erfindung benutzt nicht die Speicheranordnung (wie sie in elektronischen Rechanalogen
Sonagramme des Typs der Fig. I1 bis I48, io nern verwendet wird) alle möglichen Paare von Phosondern
digitalisierte Sonagramme, die daraus abge- nemen in Form einer Folge von kodierten binären
leitet sind. Die analogen Sonagramme werden durch »Wörtern« zu speichern, von denen jedes in der Freaufgereihte
photoelektrische Zellen, vor denen sie quenzkomposition des betrachteten Paares einem der
vorbeiziehen, gelesen, wobei die Zeitachse der Sona- η in gleichem Abstand auftretenden Zeitmomente
gramme die Achse des Vorbeiziehens ist. Das Sona- 15 ihrer Zeitdauer entspricht. Ausgehend von diesem
gramm rückt in Schritten entsprechend einer Zeit Speicherorgan und unter der Steuerung einer Adresse,
vor» die zwischen 1 und 8 ms geregelt werden kann. die in jedem Zeitmoment das gewünschte Paar von
In jeder erreichten Stellung wird das durch jede Zelle Phonemen individuell kennzeichnet, kann diese Folge
aufgenommene Signal in eine Eins oder in eine Null binärkodierter »Wörter« nacheinander abgelesen und
verwandelt, je nachdem, ob es höher oder niedriger 20 direkt zur Steuerung elektrischer Organe zur akustials
eine bestimmte Bezugsschwelle liegt. sehen Sprachwiedergabe verwendet werden, ohne
Digitalisierte Sonagramme von Phonatomen (es wird zur Abkürzung von digitalisierten Phonatomen
gesprochen) sind durch die F i g. 4, 5 und 6 veranschaulicht »5
Die digitalisierten Sonagramme der F i g. 4 entsprechen den französischen Wörtern DDC, NEUF,
HUIT, d. h. den Phonatomen:
DI—IS,
NE- EF,
UI-IT.
UI-IT.
daß eine vorherige Umformung erforderlich wird, wie es im Gegensatz dazu bei in analoger Form gespeicherten
Sonagrammen der Fall ist.
Es könnte eingewandt werden, daß die beschriebene Umwandlung von Sonagrammen nicht die Amplitude
berücksichtigt, die jede Frequenzgrundkomponente in jedem Moment aufweist. Man hat diesbezüglich
aber in der Praxis festgestellt, daß bei einer Anordnung gemäß der Erfindung eine vollkommen
verständliche Wiedergabe der Sprache erreicht wird, obwohl nur die Amplituden Null und Eins auftreten
können.
Die Sonagramme der F i g. 5 entsprechen den eng- Ein solches Sonagramm kann wegen seines ein-
lischen Wörtern HOW DO YO DO, d. h. den Phon- 35 fachen geometrischen Aufbaues außerdem leicht entatomen:
worfen und von Hand, fotografisch oder auf andere
Weise abgewandelt und anschließend in binärkodierte Wörter, beispielsweise durch fotoelektrisch es
Ablesen, übersetzt werden.
Die Erfindung wird nunmehr im einzelnen mit Bezug auf die Zeichnungen beschrieben:
Fig. I1 bis I48, I1 bis 27, 3, 4, 5 und 6 beziehen
sich auf analoge und digitalisierte Phonatome und
AU—UU- UD- DU—UJ- JU- UD- DU.
Die Sonagramme der F i g. 6 entsprechen den deutschen Wörtern DANKE SCHÖN, d.h. den
Phonatomen:
sind schon in der Beschreibungseinleitung beschric-45
ben worden;
In den F i g- 4, 5 und 6 ist jedes digitalisierte Phon- F i g. 7 veranschaulicht in Form eines BlockschaH-
In den F i g- 4, 5 und 6 ist jedes digitalisierte Phon- F i g. 7 veranschaulicht in Form eines BlockschaH-
- · ' - - "'·-·-- '·— c:—- j— ~.,™a bildes das sprechende Gerät gemäß der Erfindung;
Fig. 8 veranschaulicht das in dem Gerät enthaltene Wortzusammenfassungsgerät, im folgenden
atom eine Folge von »Wörtern« (im Sinne der numerischen Rechnung), wobei jedes 44 Binärziffern hat.
In den F i g. 4, 5 und 6 ist eine binäre Ziffer »Eins«
durch zwei aufeinanderfolgende Sterne und eine Zif- 50 »Icophon« genannt;
fer »Null« durch zwei leere Plätze für Sterne darge- Fig. 9 veranschaulicht den in dem Gerät enthal
tenen Buchstaben-Laut-Umwandler.
Unter Bezugnahme auf die Fig. 7 besteht das Gerät aus einer Kaskadenschaltung, welche ein peripheres
Gerät in Form einer Schreibmaschine 1 umfaßt, sowie einen Buchstaben-Laut-Umwandler 2, eine
Schaltung 3, welche die aus dem Umwandler 2 kommenden Phoneme paarweise gruppiert, wobei als er-
stes Phonem einer gegebenen Gruppe das letzte Pho-
MiT der Erfindung wird ein wesenüichei techni- 60 nem der unmittelbar vorhergehenden Gruppe wiederscher
Fortschritt durch die Wahl einer besonderen aufgenommen wird, und eine Adressiermatrix 4, die
Struktur der Sonagramme (Sprachspektrogramme) es gestattet, von den zwei Phonemen einer Gruppe
erzielt, bei welcher die Sonagramme mit einer steti- die Adresse des gebildeten Phonatoms, das durch
gen Änderung der Amplitude bekannter Art so ab- diese Gruppe zustandekommt, abzuleiten. Diese
gewandelt sind, daß sie in der Zeit/Frequenz-Ebene 65 Adressiermatrix ist einem Speicherwerk 5 beigesellt,
eine Struktur mit unsteter Amplitude ergeben, die in welchem die digitalisierten Phonatome gespeichert
aus einzelnen Punkten gebildet ist, zwischen welchen werden. Die 20 Wörter von 44 Binändffem, welche
konstante Zwischenräume sowohl in der Zekrichtung die Phonatome darstellen, werden in Reihe aus dem
stellt Jedes Phonatom umfaßt 20 nacheinanderfolgende Wörter. Daraus folgt, daß die Eins durch zwei
vorhandene Sterne, die Null durch zwei fehlende Sterne dargestellt wird.
Es sind also digitalisierte Phonatome, welche die Grundinformation darstellen, die in dem Speicherwerk
des sprechenden Geräts gemäß der Erfindung eingegeben wird.
Speiche rung i Paralle Der einem verbun sprech Das Sinuso
von 1' von K vall nicht j rung
Jed Genei gungs
Stirnn
in Pl al ei
Speicher 5 abgelesen und nach zeitlicher Speicherung in einen Zwischenspeicher 9 in dem Serie-Parallel-Umsetzerö
in parallele Wörter umgewandelt.
Der Umsetzer 6, der 44 Ausgänge umfaßt, ist mit
einem »Icophon« genannten Sprachsynthesegerät 7 verbunden. Dieses Icophon selbst ist mit einem Lautsprecher
8 verbunden.
Das Icophon 7 umfaßt im wesentlichen (F i g. 8) Sinusoszillatoren 7O1 bis 7O44, die auf Frequenzen
von 100 bis 4400Hz mit einem mittleren Intervall von 100 Hz abgestimmt sind. Jedoch wird das Intervall
zwischen aufeinanderfolgenden Oszillatoren nicht genau gleich 100 Hz gewählt, um die Überlagerung
von Harmonischen zu vermeiden.
Jeder Oszillator wird durch einen Zufallssignal- »5
Generator 7I1 bis 7I41 gesteuert, der auf die Schwingungsfrequenz
des entsprechenden Oszillators wirkt. Diese Maßnahme zielt darauf ab, der geflüsterten
Stimme, die aus dem Gerät kommt, eine Flüssigkeit und eine Natürlichkeit zu geben, durch welche Monotonie
vermieden wird.
Jeder Sinusoszillator wird durch eine Schaltung zum Auslösen und Anhalten 72X bis 7244 gesteuert,
wobei über die Verbindungen 73t bis 7344 die Binärziffern
der Wörter von 44 Binärziffern vom Umsetzer 6 empfangen werden. Die Auslöseschaltung
regelt die Darer des Betriebes eines jeden Oszillators. Wenn τ die Zeit genannt wird, welche die Ablesungen
von zwei aufeinanderfolgenden parallelen Wörtern trennt und τ' die Betriebsdauer der Oszillatoren,
so ist ersichtlich, daß τ zwischen 1 und 8 Tausendstelsekunden
variiert; was τ anbetrifft, so kann dies zwischen 0,24 τ und τ geregelt werden.
In dem Speicherwerk5 (Fig. 7) ist jedem binären
Wort eines Phonatoms ein Steuerwort zugeordnet, das drei Instruktionen enthält: eine Instruktion der
Kadenz der Anwendung der Wörter auf das Icophon (Instruktion τ), eine Instruktion der Schwingungsdauer τ' und eine Instruktion der Schwingungs^—~\;
tude/1. Die / und A betreffenden Wörter werden
in den Digital-Analog-Umwandlern 10 und 11 in analoge Spannungen umgewandelt und wirken jeweils
auf die Zeit«;teuerungen der Schaltungen 72,
bis 7244 und auf die Amplitudensteuerungen der Oszillatoren
7O1 bis 7O44 ein.
Der Rhythmus des Austrittes der Phonatome aus dem Speicher 5 ist ein veränderlicher Rhythmus, der
von der Lokalisierung der Phonatome im Speicher 5 abhängt Der Rhythmus lh des Zuganges der Wörter
in das Icophon 7 hängt von den, den Wörtern des Phonatoms assoziierten Steuerungswörtem ab. Es ist
also notwendig, zwischen den Schaltungen 5 und 6 einen »Pufferspeicher« 9 vorzusehen.
Der Umwandler 2 bildet einen buchstäblichen und orthographierten Text in eine Folge von phonetisehen
Symbolen um, welche die in der vorhergehenden Tabelle angegebenen Phoneme sind.
Jedes buchstäbliche Wort, das als die zwischen zwei weißen Stellen oder zwischen einer weißen Stelle
und einem Satzzeichen oder auch zwischen zwei Satzzeichen einbegriffene Folge bestimmt ist, wird
Buchstabe nach Buchstabe oder allgemeiner Zeichen nach Zeichen in ein Speicherwerk 201 eingeschrieben,
von dem aus es in ein Ableseregister 202 übertragen werden kann (Fig. 9). Ein Dauerspeicher203
enthält in kodierter Form eine Tabelle aller Wörter der Sprache, in welcher das Gerät funktioniert, wobei
eine außerordentliche Aussprache gegenüber den gewöhnlichen Regeln für die Aussprache zur Anwendung
gebracht wird. Das in 201 zur Registrierung kommende Wort und die verschiedenen Wörter der
Tabelle 203 werden in einer Vergleichsstufe 205 verglichen, und zu diesem Zweck werden die Wörter
der Tabelle 203 nacheinander ausgespeichert und in das Register 204 übertragen.
Der Vergleich zwischen dem auszusprechenden Wort und den Wörtern der Tabelle findet Buchstabe
nach Buchstabe von links aus statt, wie er bei dem Aufsuchen in einem Wörterbuch vorgenommen
würde. Zu diesem Zwecke werden die Vergleichsstufe 205, ein Adressenregister 206, das der Tabelle
der Ausnahmen 203 beigestellt ist, und ein Zähler 208 durch ein Signal auf dem Leiter 207 angelassen,
welche von einem (nicht auf der Zeichnung dargestellten) Programmiergerät kommt. Das erste Wort
der Ausnahmetabelle wird auf das Register 204 übertragen, und das auszusprechende Wort wird in
das Register 202 übertragen. Der Zähler 208 gibt an seinem ersten Ausgang ein Signal ab, das die Tore
2091 und 21O1 öffnet (in Wirklichkeit ist jedes Tor
209j oder 21O1 aus einer Gruppe von Toren gebildet,
deren Zahl gleich ist der Zahl der Binärziffern, die in dem Gerät zur Darstellung eines Zeichens verwendet
wird). Die ersten Buchstaben der zwei in 202 und 204 eingeschriebenen Wörter werden verglichen.
Wenn es sich um denselben Buchstaben handelt, wird ein Signal durch den Leiter 211 zum Zähler 208 gesendet,
der um einen Schritt vorrückt. Man vergleicht auf dieselbe Weise alle Buchstaben des auszusprechenden
Wortes und des Wortes mit außerordentlicher Aussprache (es sind nur vier Tore 209 und
vier Tore 210 dargestellt, aber es gibt selbstverständlich davon ebenso viele wie Buchstaben in dem längsten
Wort mit einer solchen Aussprache). Jedesmal, wenn die Buchstaben desselben Ranges die gleichen
sind, rückt der Zähler 208 um einen Schritt vor. Wenn diese Buchstaben verschieden sind, sendet die
Vergleichsstufe ein Signal für die Nichtidentität auf dem Leiter 212, das das Adressenregister 206 um
einen Schritt vorrücken läßt, und der Vergleich des auszusprechenden Wortes, zunächst mit dem zweiten,
dann dem dritten usw. Wort der Ausnahmetabelle wird fortgesetzt.
Wenn ein auszusprechendes Wort mit einem Wort der Tabelle der Ausnahmen gleich gefunden worden
ist, wird das Tor 213 geöffnet, und ein Signal wird über den Leiter 214 ausgesandt. Das in 201 eingeschriebene
Wort wird gelöscht.
Der Tabelle der Ausnahmen ist ein Speicherwerk 215 beigeordnet, welches die phonetischen Gleichwertigkeiten
der Wörter mit außerordentlicher Aussprache enthält Wenn ein Wort von 203 auf das
Register 204 übertragen wird, so wird gleichzeitig das phonetische Äquivalent dieses Wortes auf das
Register 216 übertragen. Das Signal, das über den Leiter 214 geht, bewirkt die Übertragung des Kodes
der Phoneme, die das phonetische Äquivalent des auszusprechenden Wortes darstellen, zum Schaltungsteil
3 der F i g. 7.
Wenn das Adressenregister 206 bei seiner letzten Adresse ist und ein Signal für die Nichtidentität auf
dem Leiter 212 erscheint, werden die Tore 217 und 218 geöffnet, und das auszusprechende Wort geht
vom Speicherwerk 201 zum Speicher 221 über welch letzterer ein Schieberegister ist. Jeder Buchstabe des
auszusprechenden Wortes wird sequentiell nach
einem Kreis für die Erkennung der Phoneme 222 mit Hilfe eines Ableseregisters 223 übertragen. Dieser
Erkennungskreis umfaßt so viele Kombinationsdetektoren, wie es Buchstabenkombinationen gibt,
welche Phoneme darstellen, die nicht einem Buchstäben allein entsprechen, z. B. IN, ON, PH, QU...
Wenn beispielsweise das Wort »PHONEME« in das Schieberegister eingeführt wird, so wird erst der
Buchstabe P in den Erkennungskreis 222 übertragen, sodann in dessen Folge der Buchstabe H. Es besteht
in dem Kreis 222 ein Detektor der Kombination PH, und das Ausgangssignal dieses Detektors ist das Phonem
F. Das Phonem F (oder, genauer gesagt, seine kodierte Kombination) wird an Stelle der Kombination
PH in das Schieberegister 221 mit Hilfe eines Wiedereinschreiberegisters 224 eingesetzt. Erkennungskreise
für besondere Kombinationen sind in der Technik wohlbekannt und brauchen hier im einzelnen
nicht beschrieben zu werden. Die Buchstaben, welche in Kombination mit demjenigen, der ihnen
unmittelbar vorausgeht, oder demjenigen, der ihnen unmittelbar folgt, nicht durch den Kreis 222 erkannte
Paare bilden, werden ohne Veränderung in das Register 221 wiedereingeschrieben.
Im vorausgegangenen ist unterstellt worden, daß die Oszillatoren 7O1 bis 7O44 Schwingungsfrequenzen
mit regelmäßigen Abständen hätten. Man kann diese Schwingungsfrequenzen in einer unregelmäßigen Art
verteilen, z. B. so, wie die Frequenzen der Vocoderfilter mit spektralen Kanälen.
Hierzu 7 Blatt Zeichnungen
Claims (4)
1. Gerät zur Umwandlung eines in graphi- des graphischen Zeichens in eine Binärzifienigrappe,
sehen Zeichen gedruckten Textes in gesprochene 5 die dieses Zeichen sowie das entsprechende Phonem
Wörter, mit Mitteln zur Umwandlung jedes gra- in kodierter Form darstellt; mit Mitteln zur Umwandphischen
Zeichens in eine Binärzifferngruppe, die lung jedes Paares von zwei aufeinanderfolgenden kodieses
Zeichen sowie das entsprechende Phonem dierten Phonemen in eine neue Binärziffemgruppe,
in kodierter Form darstellt; mit Mitteln zum Um- die das Phonempaar, das aus diesen zwei Phonemen
Wandlung jedes Paares von zwei aufeinanderfol- io besteht, in kodierter Form darstellt; mit einem Speigenden
kodierten Phonemen in eine neue Binär- cherwerk für aufgezeichnete Spektrogramme, die je-Zifferngruppe,
die das Phonempaar, das aus die- weüs in einer Zeit/Frequenz-Ebene eines der mögsen
zwei Phonemen besteht, in kodierter Form liehen Phonempaare darstellen; mit einer Vergleichsdarstellt;
mit einem Speichel werk für auf gezeich- stufe, die die Auswahl eines bestimmten aufgezeichnete
Spektiogramme, die jeweils in einer Zeit/ 15 neten Phonempaarspektrogramms unter Steuerung
Frequenz-Ebene eines der möglichen Phonem- jedes kodierten Phonempaares nacheinander bewirkt,
paare darstellen; mit einer Vergleichsstufe, die und mit Wiedergabemitteln, die eine Mehrheit von
die Auswahl eines bestimmten aufgezeichneten Oszillatoren verschiedener Frequenzen einschließen
Phonempaarspektrogramms unter Steuerung jedes und die aufeinanderfolgend die ausgewählten Phokodierten
Phonempaares nacheinander bewirkt; 20 nempaarspektrogramme in akustische Signale wäh-
und mit Wiedergabemitteln, die eine Mehrheit rend einer vorbestimmten Zeitdauer umwandeln,
von Oszillatoren verschiedener Frequenzen ein- Es ist bekannt, daß die in einem Sprachsignal entschließen und die aufeinanderfolgend die ausge- haltene Energie hauptsächlich aus zwei verschiedenen wählten Phonempaarspektrogramme in akusti- Arten von Informationen besteht:
von Oszillatoren verschiedener Frequenzen ein- Es ist bekannt, daß die in einem Sprachsignal entschließen und die aufeinanderfolgend die ausge- haltene Energie hauptsächlich aus zwei verschiedenen wählten Phonempaarspektrogramme in akusti- Arten von Informationen besteht:
sehe Signale während einer vorbestimmten Zeit- as 1. Eine ästhetische oder musikab'sche Information,
dauer umwandeln, dadurch gekennzeich- Beim Anhören ein und desselben, von verschiedenen
net, daß jedes der Spektrogramme in Form einer Personen ausgesprochenen Wortes unterscheidet man
Folge binärkodierter Wörter in dem Speicherwerk warme, klangvolle, dumpfe, scharfe Stimmen usw.
gespeichert ist, deren jedes die binärkodierte Dies bringt, soweit es die eigentliche Mitteilung anÜbersetzung
eines transformierten Spektrogramms 30 geht, keine Aufklärung über die Mitteilung an sich,
darstellt, das aus in der ZeitvFrequenz-Ebene ent- außer in einigen seltenen, besonderen Fällen, wo der
lang von Konstantzeitlinien mit gleichmäßigen Sinn des Satzes sich mit dem »Ton«, mit welchem er
Frequenzintervallen diskret verteilten Punkten be- gesagt wird, ändern kann. So kann z.B. der Satz:
steht, die jeweils einem Amplitudenwert »Eins« »Versuche näherzukommen« ebensogut bedeuten:
oder »Null« des Spektrogramms entsprechen, 35 »Mach eine Anstrengung, um näher zu kommen«,
während jede dieser Linien einem von mit gleich- wie aber auch: »Ich rate Dir dringend, nicht näher
mäßigen Intervallen in dem Spektrograram ver- zu kommen«. Dieser Ton ist eine Funktion der Verteilten
Zeitpunkten entspricht, wodurch das auf- änderung der Stimmhöhe und des Rhythmus der
einanderfolgende Ablesen dieser Wörter binär- Wörter. Von diesem Gesichtspunkt aus ist es not- \
kodierte Steuersignale für die Steuerung der Wie- 40 wendig, die Tatsache zu betonen, daß die »Höhe« \
dergabemittel direkt liefert (F i g. 4 bis 6). der Stimme zwei ganz verschiedene Aspekte hat: j
2. Gerät nach Anspruch 1, dadurch gekenn- a) Höhe des von den Stimmbändern ausgehenden I
zeichnet, daß jedem kodierten Phonempaar ein harmonischen Linienspektrums. Die Erfahrung zeigt,
erstes Hilfskodewort (τ) zugeordnet ist, das das daß diese Wahrnehmung nichts zu tun hat mit der
Zeitintervall zwischen Auslösen und Anhalten 45 etwaigen Zählung der Grundfrequenz des Wortes,
der Oszillatoren (70,... 7O44) durch zwei aufein- und der beste Beweis dafür ist, daß man die Grundanderfolgende Binärworte bestimmt, und daß Ab- frequenz wegschneiden kann, ohne die empfundene
lesemittel für das erste Hilfskodewort und Sperr- Höhe eines harmonischen Linienspektrum zu ändern,
mittel der Steuerung der Oszillatoren vorgesehen b) Höhe der Formanten. Ein Geräuschfrequenzsind,
welche durch diese Ablesemittel gesteuert 50 band ruft eine Empfindung von Tonhöhe hervor, die
werden (F i g. 8). um so mehr verschwommen ist, als das Frequenz-
3. Gerät nach Anspruch 1, dadurch gekenn- band breiter ist; aber die Variationen der Tonhöhe
zeichnet, daß jedem kodierten Phonempaar ein eines Geräuschbandes sind im Gegensatz dazu klar
zweites Hilfskodewort (A) zugeordnet ist, das die vernehmbar.
Schwingungsamplitude der Oszillatoren (7O1... 55 Die Musikalität einer Stimme wird durch das Li-7O44)
bestimmt, wenn diese digital von kodierten nienspektrum bestimmt, aber die semantische Infor-Phonempaaren
angesteuert werden, und daß Mit- mation wird offensichtlich nicht durch das Linientel
für die Ablesung des zweiten Hilfskodewortes, spektrum übertragen.
sowie Mittel (72X... 7244) für das Auslösen und 2. Eine semantische Information. Die Fernsprech-
Anhalten der Oszillatoren vorgesehen sind 60 erfahrung zeigt, daß man sich mit einem ziemlich
(Fig. 8). engen Frequenzband begnügen kann, ohne die Ver-
4. Gerät nach Anspruch 1, dadurch gekenn- ständlichkeit der Wörter zu zerstören. Alles, was
zeichnet, daß die Oszillatoren (7O1... 7O44) mit 4000 Hz übersteigt, ist nicht notwendig und kann insich
zufällig ändernden Frequenzen in einem folgedessen als Redundanz angesehen werden. Man
entsprechenden Frequenzband arbeiten (F i g. 8). 65 folgert daraus, daß das Wesentliche der semantischen
Information unterhalb dieser Frequenz gelegen ist, was das Problem sehr begrenzt und vereinfacht.
Andererseits weiß man, daß die Verständlichkeit von
Andererseits weiß man, daß die Verständlichkeit von
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR182925 | 1968-12-31 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE1965480A1 DE1965480A1 (de) | 1970-08-20 |
DE1965480B2 true DE1965480B2 (de) | 1973-05-17 |
DE1965480C3 DE1965480C3 (de) | 1973-11-29 |
Family
ID=8659829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1965480A Expired DE1965480C3 (de) | 1968-12-31 | 1969-12-30 | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte |
Country Status (8)
Country | Link |
---|---|
US (1) | US3632887A (de) |
CH (1) | CH513482A (de) |
DE (1) | DE1965480C3 (de) |
FR (1) | FR1602936A (de) |
GB (1) | GB1257850A (de) |
NL (1) | NL170673C (de) |
SE (1) | SE346637B (de) |
SU (1) | SU401062A3 (de) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4000565A (en) * | 1975-05-05 | 1977-01-04 | International Business Machines Corporation | Digital audio output device |
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
US4685135A (en) * | 1981-03-05 | 1987-08-04 | Texas Instruments Incorporated | Text-to-speech synthesis system |
NL8200726A (nl) * | 1982-02-24 | 1983-09-16 | Philips Nv | Inrichting voor het genereren van de auditieve informatie van een verzameling karakters. |
US4731847A (en) * | 1982-04-26 | 1988-03-15 | Texas Instruments Incorporated | Electronic apparatus for simulating singing of song |
US4527274A (en) * | 1983-09-26 | 1985-07-02 | Gaynor Ronald E | Voice synthesizer |
US4695962A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Speaking apparatus having differing speech modes for word and phrase synthesis |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US5197052A (en) * | 1988-03-10 | 1993-03-23 | Grundig E.M.V. | Personal computer dictation system with voice anad text stored on the same storage medium |
US5325462A (en) * | 1992-08-03 | 1994-06-28 | International Business Machines Corporation | System and method for speech synthesis employing improved formant composition |
US5446791A (en) * | 1993-03-17 | 1995-08-29 | Jag Design International Limited | Sound synthesizer system operable by optical data cards |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
AU675389B2 (en) * | 1994-04-28 | 1997-01-30 | Motorola, Inc. | A method and apparatus for converting text into audible signals using a neural network |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
US6639512B1 (en) | 1998-07-15 | 2003-10-28 | Kyu-Woong Lee | Environmental warning system |
US6230135B1 (en) | 1999-02-02 | 2001-05-08 | Shannon A. Ramsay | Tactile communication apparatus and method |
US6178402B1 (en) | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
KR100658869B1 (ko) * | 2005-12-21 | 2006-12-15 | 엘지전자 주식회사 | 음악생성장치 및 그 운용방법 |
US7977560B2 (en) * | 2008-12-29 | 2011-07-12 | International Business Machines Corporation | Automated generation of a song for process learning |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2771509A (en) * | 1953-05-25 | 1956-11-20 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US3234332A (en) * | 1961-12-01 | 1966-02-08 | Rca Corp | Acoustic apparatus and method for analyzing speech |
US3102165A (en) * | 1961-12-21 | 1963-08-27 | Ibm | Speech synthesis system |
US3344239A (en) * | 1962-08-06 | 1967-09-26 | Data translating system having a fast scan address section | |
US3280257A (en) * | 1962-12-31 | 1966-10-18 | Itt | Method of and apparatus for character recognition |
US3319002A (en) * | 1963-05-24 | 1967-05-09 | Clerk Joseph L De | Electronic formant speech synthesizer |
US3492646A (en) * | 1965-04-26 | 1970-01-27 | Ibm | Cross correlation and decision making apparatus |
-
1968
- 1968-12-31 FR FR182925A patent/FR1602936A/fr not_active Expired
-
1969
- 1969-12-29 SE SE17980/69A patent/SE346637B/xx unknown
- 1969-12-29 CH CH1931369A patent/CH513482A/fr not_active IP Right Cessation
- 1969-12-30 DE DE1965480A patent/DE1965480C3/de not_active Expired
- 1969-12-31 GB GB1257850D patent/GB1257850A/en not_active Expired
- 1969-12-31 US US889653A patent/US3632887A/en not_active Expired - Lifetime
- 1969-12-31 SU SU1406116A patent/SU401062A3/ru active
- 1969-12-31 NL NLAANVRAGE6919639,A patent/NL170673C/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DE1965480C3 (de) | 1973-11-29 |
SE346637B (de) | 1972-07-10 |
CH513482A (fr) | 1971-09-30 |
NL170673C (nl) | 1982-12-01 |
GB1257850A (de) | 1971-12-22 |
FR1602936A (de) | 1971-02-22 |
DE1965480A1 (de) | 1970-08-20 |
SU401062A3 (de) | 1973-10-01 |
US3632887A (en) | 1972-01-04 |
NL6919639A (de) | 1970-07-02 |
NL170673B (nl) | 1982-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE1965480C3 (de) | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte | |
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
EP1184839B1 (de) | Graphem-Phonem-Konvertierung | |
DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE4237563A1 (de) | ||
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE69917960T2 (de) | Phonembasierte Sprachsynthese | |
DE2752607A1 (de) | Verfahren zur erkennung von sprache | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2946856A1 (de) | Wortspeichergeraet | |
DE3006339C2 (de) | Sprachsyntesizer | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
DE4138016A1 (de) | Einrichtung zur erzeugung einer ansageinformation | |
DE3105518A1 (de) | Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE2051589B2 (de) | Elektrischer Synthesator | |
DE3037276A1 (de) | Tonsynthesizer | |
DE3232835C2 (de) | ||
DE2104012C3 (de) | Elektrische Einrichtung zur Erkennung von Sprachlauten | |
DE19939947C2 (de) | Digitales Sprachsyntheseverfahren mit Intonationsnachbildung | |
DE2029582A1 (de) | Gerat zur elektronischen Erzeugung von veränderbaren musikalischen Klangen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
E77 | Valid patent as to the heymanns-index 1977 |