-
Verfahren und Vorrichtung zum Erkennen gesprochener Worte Die Erfindung
betrifft ein Verfahren zum Erkennen gesprochener Worte, bei denen der gesamte auszuwertende
Frequenzbereich in getrennt auszuwertende Teilbereiche aufgeteilt wird.
-
Es ist bereits bekannt, das durch ein gesprochenes Wort erzeugte tonfrequente
Signal in verschiedene Frequenzbänder zu zerlegen und diese zur Identifizierung
des Wortes zu benutzen. Diese Verfahren haben jedoch nicht zu praktisch verwertbaren
Ergebnissen geführt. Sie waren insbesondere nicht geeignet, eine große Anzahl von
Worten mit Sicherheit zu erkennen. Die bekannten Verfahren versagten vor allem dann,
wenn das gesprochene Wort in verschiedenen Tonlagen gesprochen wurde.
-
Das Verfahren und die Vorrichtung gemäß der Erfindung ist in der Lage,
sich an die Tonhöhe der Sprache, die Schnelligkeit des gesprochenen Wortes und an
die Lautstärke anzupassen. Erfindungsgemäß werden die gesprochenen Worte einer Tonhöhen-,
Wortlängen- und Lautstärkennormierung unterzogen, daraus werden die Frequenz- und
Amplitudenmodulationskennwerte abgeleitet und diese mit einer Vielzahl gespeicherter
Vergleichskomponenten verglichen und bei Feststellung von Übereinstimmung daraus
Steuersignale erzeugt und weitergeleitet.
-
Vorteilhafterweise werden die von einem gesprochenen Wort abgeleiteten
Signalkomponenten auf dem Schirm einer Kathodenstrahlröhre sichtbar gemacht und
photoelektrisch mit Normalkomponenten auf einer rotierenden Scheibe verglichen,
indem bei einem ersten Umlauf der Scheibe der maximale Betrag der dabei gewonnenen
Vergleichsspannungen festgestellt und bei den folgenden Umläufen die Normalkomponenten
für die größte übereinstimmung und das diesen zugeordnete Wort ermittelt wird.
-
Weitere Merkmale der Erfindung sind in den Ansprüchen enthalten. Ein
Ausführungsbeispiel der Erfindung ist in der folgenden Beschreibung und den Zeichnungen
näher erläutert. Es zeigt F i g. 1 ein Blockschaltbild und eine vereinfachte perspektivische
Darstellung eines Gerätes zur automatischen Identifizierung gesprochener Worte,
F i g. 2 die Kurvenform der elektrischen Signale, herrührend von einem gesprochenen
Wort, F i g. 3 einen Teil einer Bezugsmaske, F i g. 4 ein Blockschaltbild eines
Teiles des Gerätes, F i g. 5 ein Blockschaltbild der Identifizierungseinheit, F
i g. 6, 7 und 8 verschiedene Ausführungsformen von Bezugsmasken, F i g. 9 ein Blockschaltbild
einer anderen Form einer Abtastanordnung gemäß der Erfindung.
-
Die Schallwellen der gesprochenen Worte werden von einem Mikrophon
10 oder einem anderen Wandler in elektrische Ströme umgewandelt, die den Amplituden-
und Frequenzschwankungen der Schallwellen entsprechen. Die Eingangsschaltung enthält
einen Magnetbandspeicher 12, dem ein mit dem Mikrophon 10 und einem Sprechkopf 14
gekoppelter Aufnahmeverstärker 13 zugeordnet ist. Ein wahlweise anschaltbarer Wiedergabeverstärker
16 ist mit einem Hörkopf 17 verbunden. Der Abstand zwischen dem Sprechkopf 14 und
dem Hörkopf 17 ist abhängig von der Geschwindigkeit des Magnetbandes so gewählt,
daß eine bestimmte Zeitverzögerung erreicht wird. Die vom Wiedergabeverstärker 16
gelieferten Signale sind entsprechend der Zeitdauer des längsten zu erwartenden
Wortes verzögert.
-
Dem Hörkopf 17 des Magnetbandspeichers 12 ist außerdem ein Löschkopf
18 nachgeordnet. Die Steuerschaltungen 20 sind mit dem Mikrophon
10,
dem Aufnahmeverstärker 13, dem Wiedergabeverstärker 16, dem Löschkopf
18 und dem Magnetbandspeicher 12 gekoppelt, damit wahlweise ein Einwortbetrieb und
eine wiederholte Analyse erfolgen kann. Der Magnetbandspeicher 12 kann zur aufeinanderfolgenden
Aufzeichnung einer ganzen Nachricht und danach zur Ausgabe von jeweils einem Wort
verwendet werden, bis alle Worte identifiziert sind. Die
Steuerschaltungen
20 belassen ein aufgezeichnetes Wort nicht länger auf dem Bandspeicher 12,
als für den normalen Arbeitszyklus erforderlich ist. Die Hauptaufgabe der Steuerschaltungen
20 besteht darin, verschiedene Einheiten des Gerätes am Ende der Arbeitsschritte
zurückzustellen.
-
Die von der Eingangsschaltung abgegebenen Signale werden Normierungs-Steuerschaltungen
21 zugeführt. Sie umfassen eine Tonhöhen-Normierungseinheit 22, eine Wortlängen-Ermittlungseinheit
23 und eine Amplituden-Normierungseinheit 24. Die Tonhöhen-Normierungseinheit
22 stellt die Abweichungen eines gesprochenen Wortes von einer festgelegten
Normaltonhöhe oder -frequenz fest und sendet ein Tonhöhen-Steuersignal zu zugeordneten
Informationsverarbeitungsschaltungen 26, in denen das Signal in bezug auf die Tonhöhe
normiert wird.
-
Die Amplituden-Normierungseinheit 24 empfängt gleichzeitig die nicht
verzögerten Signale direkt vom Mikrophon 10 und die verzögerten Signale vom
Wiedergabeverstärker 16. Die direkt empfangenen Signale dienen zur Erzeugung
eines Signals zur Darstellung des Durchschnitts-Zeitintervalls für die zu erwartende
Wortlänge. Gleichzeitig liefert die Wortlängen-Ermittlungseinheit 23 ein
Wortlängen-Steuersignal, das der tatsächlichen zeitlichen Länge des gesprochenen
Wortes proportional ist. Dann wird das verzögerte Signal auf zwei veränderliche,
in Reihe geschaltete Verstärker gegeben, von denen der eine die Amplitude gemäß
dem ermittelten Durchschnittswert und der andere die Amplitude gemäß der tatsächlichen
Wortlänge einstellen. Die Signale mit den normierten Amplituden werden dann den
Informadonsverarbeitungsschaltungen 26 zusammen mit den Tonhöhen-Steuersignalen
zugeführt. Danach sind die Ausgangssignale aus den Informationsverarbeitungsschaltungen
26 sowohl in bezug auf die Tonhöhe als auf die Amplitude normiert, haben
aber dieselbe zeitliche Länge wie das ursprüngliche gesprochene Wort.
-
Weitere Einzelheiten über die Informationsverarbeitungsschaltungen
26, die hier verwendet werden können, folgen nachstehend in Verbindung mit
F i g. 5. Es kann jedoch angenommen werden, daß eine genaue und eindeutige Identifizierung
jedes gesprochenen Wortes erreicht werden kann durch drei Signale, die die Frequenzmodulationskomponenten
von drei verschiedenen Frequenzen darstellen, und durch .drei weitere Signale, die
die Amplitudenmodulationskomponenten bei den drei Frequenzen darstellen. Die Wortlängen
bzw. Sprechgeschwindigkeitsnormierung erfolgt durch einen Zeitbasisgenerator
28, der durch die Wortlängen-Steuersignale gesteuert wird. Ein elektronischer
Schalter 29 faßt die Signalkomponenten der sechs Kanäle zusammen und leitet die
Signale auf einem Kanal der Abtaststeuerschaltung 31 zu.
-
Es werden alle sechs Signale gleichzeitig auf dem Schirm einer Kathodenstrahlröhre
30 unter der Steuerung des Zeitbasisgenerators 28 und der vom elektronischen
Schalter 29 kommenden Signale dargestellt. Die Verwendung der Kathodenstrahlröhre
zur Zeichenerkennung ist bereits bekannt und nicht Gegenstand der Erfindung. Der
Zeitbasisgenerator 28 steuert die horizontalen Ablenkschaltungen so, daß die Kippfrequenz
verändert wird, um eine ausgewählte normierte Länge in horizontaler Richtung ohne
Rücksicht auf die Dauer des gesprochenen Wortes zu erhalten. Die Signale aus dem
elektronischen Schalter 29 steuern die vertikale Ablenkung des Kathodenstrahls der
Röhre 30, und die Abtaststeuerschaltung bewirkt die Darstellung der Signalkomponenten
auf verschiedenen Zeilen auf dem Schirm 32 der Röhre 30.
-
Die Ausdrücke »horizontal« und »vertikal« werden hier lediglich als
Hinweis und als Beispiel für die in den Zeichnungen gezeigten Stellungen verwendet.
Die Signaldarstellungen auf dem Schien 32
können tatsächlich in jeder gewünschten
Lage auftreten.
-
Die in der Länge normierten Signale, die als Leuchtspuren auf dem
Schirm 32 auftreten, werden durch ein Linsensystem 33 auf Bezugsmasken 37 einer
drehbaren Scheibe 35 fokussiert. Die Scheibe 35 trägt auf einem inneren Bereich
für jedes zu identifizierende Wort eine Bezugsmaske 37, die z. B. sechs Bezugsschemen
aufweist, die einem gesprochenen Wort zugeordnet sind. Die Bezugsschemen
38
sind auf der Bezugsmaske 37 als durchsichtige Linien dargestellt, und jede
der Linien entspricht in bezug auf Längen- und Amplitudenänderungen einer speziellen
Normalfrequenzkurve oder -amplitudenkurve für das ausgewählte Wort. In der Zeichnung
sind nur wenige Segmente mit Bezugsmasken 37 dargestellt; natürlich können tatsächlich
viel mehr davon benutzt werden, um die Anzahl der Bezugsschemen und -worte zu vergrößern.
Selbstverständlich können auch andere Verfahren zur Abtastung von Bezugsschemen,
die sich an einem Schirm vorbeibewegen, benutzt werden. Es könnte z. B. ein von
Kettenrädern angetriebener endloser Film, der mit extrem hoher Geschwindigkeit umläuft,
verwendet werden, um eine große Wortkapazität zu erreichen.
-
Die Scheibe 35, die die Bezugsmaske 37 trägt, ist auf einer Welle
39 befestigt und wird durch einen Motor (nicht dargestellt) angetrieben. Auf dem
äußeren in eine größere Anzahl Segmente 40 aufgeteilten Kreisring der Scheibe
35 ist in jedem Segment das zugehörige Wort in Druckschrift transparent dargestellt
(F i g. 3). Die identifizierten Worte werden durch stroboskopische Belichtung sichtbar
gemacht.
-
Ein mittlerer Kreisring der Scheibe ist in Segmente 41 eingeteilt
und enthält durchsichtige Kennzeichen 43, die in binär verschlüsselter Darstellung
die Buchstaben des dem betreffenden Segment zugeordneten Wortes wiedergeben. Durch
Verschieben der Segmente 40 und 41 um die Scheibe herum in bezug auf die entsprechenden,
dasselbe Wort darstellenden Bezugsschemen 38 läßt sich der Lesebereich in jede beliebige
Winkelstellung zu der durch die Speicherröhre 30 und die Photozelle 46 bestimmten
optischen Achse bringen. Gemäß F i g. 1 können die Segmente 40 und 41 z. B. um einen
Winkel von weniger als 180° zur Bezugsmaske 37 für dasselbe Wort verschoben werden,
die sich gerade im Lesebereich befindet.
-
Durch die Linsen 33 wird das Schirmbild 32 auf der Bezugsmaske 37
(F i g. 1) abgebildet, und durch ein anderes Linsensystem 45 wird das durch die
Bezugsschemen 38 hindurchtretende Licht auf eine Photozelle 46 fokussiert.
Amplitudenänderungen in den von der Photozelle 46 gelieferten Signalen werden einem
Verstärker 47 und dann einem Vergleicher 50 zugeführt, der bestimmt, welche der
Bezugsschemen 38 die größte übereinstimmung mit den auf dem Schirmbild 32
angezeigten Schemen aufweisen.
Die Vergleicherschaltung
50 enthält zwei Speicherkondensatoren 51 und 52, und zwar speichert
der erste Kondensator 51 Wortamplituden während des ganzen bei der Analyse eines
gesprochenen Wortes benutzten Zeitabschnitts, und der zweite Kondensator 52 speichert
die Maximalamplitude, die während jeder der verschiedenen Abtastungen des Schirmbildes
durch die einzelnen Bezugsschemen 38 erzeugt wird. Das Signal in dem zweiten Speicherkondensator
52 kann daher als Einschwingsignal bezeichnet werden. Es stellt die Spannungen dar,
die während eines einzigen Umlaufs auftreten und die mit dem Potential auf dem ersten
Speicherkondensator 51 verglichen werden soll. Die Signale aus dem Verstärker
47 werden über Dioden 54, 55 den Kondensatoren 51 bzw. 52 und außerdem einem Vergleicher
57 zur Feststellung der Amplitudengleichheit zugeführt. Ein dem ersten Speicherkondensator
51 parallelgeschalteter Kontakt 58 eines Wortrückstellrelais (nicht dargestellt)
wird durch Rückstellsignale aus den Steuerschaltungen 20 gesteuert, und zwar
entstehen die Rückstellsignale bei Beendigung der Ausgabe. Der Kontakt 59 für die
Schemarückstellung ist dem zweiten Speicherkondensator 52 parallel geschaltet und
wird periodisch synchron mit der Drehung der Scheibe 35 betätigt. Der zweite Kondensator
52 wird durch die Signale aufgeladen, die entstehen, wenn die Bezugsschemen 38 mit
der Darstellung des Schirms 32 verglichen werden. Wenn die Scheibe 35 eine ganze
Drehung ausgeführt hat, wird der Kontakt 59 geschlossen, um den Kondensator 52 zu
entladen. Die mechanische Kopplung zwischen Kontakt 59 und der Scheibe 35 kann auch
durch elektrische Steuerung ersetzt werden.
-
Der Vergleicher 57 liefert bei dem ersten Umlauf der Scheibe 35 einen
Impuls bei der größten Übereinstimmung der Bezugsschemen 38 auf den Bezugsmasken
37 mit dem Schirmbild für das gesprochene Wort. Dieses die größte Übereinstimmung
darstellende Signal wird als Impuls zur Betätigung eines Stroboskops 60 zur Belichtung
der Wortangaben und der durchsichtigen Kennzeichen 43 benutzt. Das hindurchtretende
Licht steuert eine Photozellenmatrix 61, die Ausgangssignale an ein Datenverarbeitungssystem
oder eine andere Auswertvorrichtung, z. B. an ein Druckwerk 63, abgibt. Die Aufgaben
einer Ausgabeschaltung 62 werden später in Verbindung mit F i g. 4 erläutert.
-
Jedes vom Mikrophon 10 aufgenommene Wort wird in der Eingangsschaltung
so verarbeitet, daß Signale sowohl direkt als auch mit einer Verzögerung in die
Normierungs-Steuerschaltungen 21 eingespeist werden. Bei einer genügend hohen
Verarbeitungsgeschwindigkeit in der nachfolgenden elektronischen Schaltung kann
die Identifizierung eines Wortes in dem kurzen Intervall zwischen den Worten erfolgen,
so daß der Betrieb praktisch kontinuierlich ist. Wenn die Geschwindigkeit des Systems
hoch genug ist oder eine ausreichende Verzögerung zwischen den Worten vorgesehen
ist, können die gesprochenen Worte unter Weglassung des Magnetbandspeichers 12 direkt
durch das Mikrophon und einen Verstärker eingegeben werden.
-
Durch die Normierungs-Steuerschaltungen 21 und die Informationsverarbeitungsschaltungen
26 wird die Identität der durch das gesprochene Wort erzeugten Signale aufrechterhalten
und die gewonnenen Signale so normiert, daß das Rauschen weitgehend ausgeschaltet
wird. Durch die direkt vom Mikrophon gelieferten Signale wird eine Tonhöheneinstellang
in der Tonhöhen-Normierungseinheit 22 und eine Durchschnittsamplitudeneinstellung
in der Amplituden-Normierungseinheit 24 vorgenommen. Außerdem wird dasselbe Signal
in bezug auf seine Länge in der Wortlängen-Ermittlungseinheit 23 gemessen, um das
Wortlängen-Steuersignal zu erzeugen. Dann wird das vom Mikrophon gelieferte und
verzögerte Signal des gesprochenen Wortes, das der Amplituden-Normierungseinheit
24 zugeleitet wird, amplitudenmäßig normiert durch die Verwendung sowohl des Durchschnittsamplituden-
als auch des Wortlängen-Steuersignals.
-
In den Informationsverarbeitungsschaltungen 26 werden durch die von
der Tonhöhen-Normierungseinheit 22 gelieferten Tonhöhen-Steuersignale entsprechend
der tatsächlichen Tonhöhe des gesprochenen Wortes die Durchlaßbereiche von sechs
verschiedenen veränderlichen Filtern so eingestellt, daß sie für das zu identifizierende
Wort sechs charakteristische Signalkomponenten erzeugen. Die den sechs Filtern zugeführten
Signale mit normierter Amplitude werden auf drei Amplituden-Demodulatorkanäle und
drei Frequenz-Demodulatorkanäle aufgeteilt. Dementsprechend liefern die Informationsverarbeitungsschaltungen
26 drei »Amplituden«-Signale, die normierte Amplitudenschwankungen bei drei verschiedenen
Frequenzen im Tonfrequenzbereich darstellen, und drei entsprechende »Frequenz«-Signale.
Alle sechs Signale am Ausgang der Informationsverarbeitungsschaltungen 26 haben
dieselbe Dauer wie das zu identifizierende gesprochene Wort.
-
Die durch die Amplituden- und Frequenzkurven dargestellten sechs zeitlich
veränderlichen Signalkomponenten werden gleichzeitig durch einen mit hoher Geschwindigkeit
arbeitenden elektronischen Schalter 29 auf einer Kathodenstrahlröhre 30 sichtbar
gemacht. Weil die dargestellten Signalkomponenten im Tonfrequenzbereich liegen und
der elektronische Schalter im Megahertzbereich arbeitet, gehen keine Informationen
verloren.
-
Die auf dem Schirm der Kathodenstrahlröhre 30 dargestellten Signalkomponenten
werden auf eine bestimmte Länge gebracht. Hat das Wort eine kürzere Dauer als die
ausgewählte normierte Dauer, beschleunigt das Wortlängen-Steuersignal den Zeitbasisgenerator
28, um die normierte Länge auf dem Schirm 32 der Röhre 30 anzuzeigen, und entsprechend
umgekehrt für die Worte, die länger als die ausgewählte Dauer sind.
-
Die Signalkomponenten, die ein gesprochenes Wort kennzeichnen und
als Leuchtspuren auf dem Schirm 32 dargestellt sind, sind in F i g. 2 genauer gezeigt.
Mit Beendigung der Abtastung zeigt die normalerweise dunkle Sichtfläche 32 sechs
Leuchtspuren, die drei Fiequenz- und drei Amplituden-Signalkomponenten darstellen.
Jede Signalkomponente ist vollständig normiert, so daß die persönlichen Eigenarten
eines Sprechers in bezug auf Tonhöhe, Amplitude und Sprechgeschwindigkeit ausgeglichen
sind.
-
Gemäß F i g.1 wird das Gesamtbild der Leuchtspuren auf die Bezugsmaske
37 der sich drehenden Scheibe 35 projiziert. Das Licht, das auf die Photozelle 46
fällt und damit das Ausgangssignal des Verstärkers 47, ändert sich für jedes Segment
mit dem Grad der Übereinstimmung des Schirmbildes mit
den Bezugsschemen
38. Für die Identifizierung eines Wortes werden wiederholte Umläufe der Scheibe
35 benutzt. In einem ersten Umlauf wird das von der Photozelle 46 gelieferte
Signal mit der Maximalamplitude festgestellt und gespeichert. In den darauffolgenden
Umläufen wird diese Maximalamplitude als Bezugswert verwendet. Die Signale, die
an der Photozelle 46 für jedes Bezugsschema 38, das den optisch mit der Leuchtanzeige
fluchtenden Sichtbereich überquert, erzeugt werden, werden nacheinander mit der
Maximalamplitude verglichen. Wenn das eine Schema 38, das die Erzeugung eines
entsprechenden Amplitudensignals ermöglicht, das Sichtfeld überquert, wird ein Signal
»Größte Übereinstimmung« (Gr. ü.) erzeugt.
-
Der Kontakt 59 des Schemarückstellrelais wird bei jedem Umlauf der
Scheibe 35 einmal kurz geschlossen, damit Signale aus dem Verstärker 47 den zweiten
Speicherkondensator 52 aufladen. Wenn das Schirmbild 32 genau den durchsichtigen
Bereichen eines Bezugsschemas 38 entspricht, lädt die Photozelle 46 über den Verstärker
47 den zweiten Speicherkondensator 52 auf eine Maximalspannung auf. Dieser
Maximalwert wird für die Identifizierung des unbekannten Wortes benutzt. Es gibt
selten eine genaue Übereinstimmung zwischen Anzeige und Bezugsschema wegen der vielen
entstehenden restlichen Rauschwirkungen. In den meisten Fällen kann diese Kennzeichnung
als eindeutig betrachtet werden. Das Vorhandensein mehrerer verschiedener Signalkomponenten
kennzeichnet jedoch das gesprochene Wort völlig und ermöglicht die Identifizierung
trotz der restlichen Rauschwirkungen.
-
Beim ersten vollständigen Umlauf der Scheibe 35 wird die von der Photozelle
46 abgegebene Signalamplitude für die größte Übereinstimmung festgestellt,
um eine Norm für den Vergleich der größten Übereinstimmung bei den folgenden Umläufen
zu haben. Während des ersten Umlaufs wird der Kontakt 58 des Wortrückstellrelais
offen gehalten, und das sich verändernde Signal aus der Photozelle 46 und der Verstärkerschaltung
47 wird über die Diode 54 dem ersten Speicherkondensator 51 zugeleitet. Der
Kondensator 51 wird auf einen Spannungspegel aufgeladen, der bestimmt wird durch
das Licht, das auf die Zelle 46 fällt, wenn die Anzeige durch die Bezugsschemen
38 mit der größten Übereinstimmung abgetastet wird. Die Signalspitzen werden
dadurch gespeichert, daß der Kondensator 51 durch eine Quelle niedriger Impedanz
aufgeladen wird und eine Diode 54 mit hohem Sperrwiderstand verwendet wird. Dadurch
wird der Kondensator 51 nur von solchen Signalen aufgeladen, deren Amplitude größer
ist als die vorher aufgetretenen, bis eine maximale Spannung als Bezugspegel gespeichert
ist.
-
Die hier benutzte Wortprüfung nutzt daher den Spannungspegel am ersten
Speicherkondensator 51, der während des ersten Umlaufs entsteht, als Bezugspegel
für das zu identifizierende Wort aus. Während des zweiten und jedes folgenden Umlaufs
der Scheibe 35 wird dieser Bezugspegel mit den Einschwingpegeln verglichen, die
jeweils bei Abtastung des Schirmbildes durch jedes Bezugsschema 38 entstehen. Beim
zweiten und den späteren Umläufen der Scheibe 35 wird das Potential am zweiten Kondensator
52 durch die von der Photozelle 46 gelieferte Spannung angehoben, und anschließend
wird der Kondensator 52 entladen, um einen neuen Umlauf einzuleiten. Der Kondensator
52 erreicht dasselbe Potential wie der Kondensator 51 nur für eine bestimmte Bezugsmaske,
die dem zu identifizierenden, gesprochenen Wort zugeordnet ist. Wenn die Pegel auf
beiden Kondensatoren 52 und 51 gleich sind, erzeugt der Vergleicher 57 das Signal
»Gr. ü.«. Für jeden Umlauf wird nur ein Impuls »Gr. f3.« erzeugt. Der zweite Kondensator
52 kann auch für jedes neue Bezugsschema anstatt für jeden neuen Umlauf rückgestellt
werden.
-
Das Signal »Gr. r1.«, das der Vergleicher 57 liefert, steuert
die Lampe im Stroboskop 60. Nach dem ersten Umlauf der Scheibe 35 leuchtet die Lampe
jedesmal beim Auftreten des Signals »Gr. ü.« auf, so daß das erkannte Wort optisch
dargestellt wird. Gleichzeitig lassen die durchsichtigen binären Kennzeichen 43
Licht auf eine Photozellenmatrix 61 fallen, die eine parallele Entnahme des identifizierten
binär verschlüsselten Wortes ermöglicht. Im vorliegenden Falle werden mehrere Umdrehungen
der Scheibe 35 benutzt, um bei jedem Umlauf jeweils einen binär verschlüsselten
Buchstaben herauszulesen.
-
Die Ausleseschaltung 62 steuert, wie aus F i g. 4 deutlicher hervorgeht,
das aufeinanderfolgende Auslesen der binär verschlüsselten Zeichen, bis das ganze
Wort entnommen ist. Die aus der Ausleseschaltung 62 kommenden binär verschlüsselten
Zeichen werden z. B. einem Ausgabedruckwerk 63 zugeführt. Am Ende des Umlaufs für
den letzten Buchstaben eines Wortes, welches der maximalen Wortlänge in der Sammlung
entspricht, wird ein Rückstellsignal an die Steuerschaltungen 20 zur Betätigung
des Kontaktes 58 des Wortrückstellrelais gegeben, um den ersten Speicherkondensator
51 zu entladen. Gleichzeitig betätigt das Rückstellsignal die Steuerschaltungen
20 so, daß ein neues Wort zur Identifizierung bereitgestellt wird. Damit ist der
vollständige Arbeitsumlauf und die Identifizierung des jeweiligen gesprochenen Wortes
abgeschlossen.
-
Eine der Erfindung entsprechende Ausleseschaltung 62 ist genauer in
F i g. 4 dargestellt, in der ein Teil der Scheibe 35 mit einem durchsichtigen Kennzeichen
43 und einer Bezugsmaske 37 gezeigt ist. Das Kennzeichen 43 ist in der Lage dargestellt,
in der gerade ein Signal »Gr. f?.« erzeugt wird. Jede Spalte des Kennzeichens 43
stellt einen Buchstaben in dem erkannten Wort dar. In dieser Auslesestellung des
Kennzeichens 43 ist jede Spalte mit einer der stroboskopischen Lampen 66 ausgerichtet.
In der Zeichnung sind vierzehn Spalten und vierzehn Lampen 66 dargestellt, und es
wird angenommen, daß das längste in Betracht kommende Wort aus vierzehn Buchstaben
besteht.
-
Ein elektronischer Schrittschalter 68 mit fünfzehn in Reihe geschalteten
Schrittschaltelementen empfängt das Signal »Gr. rI.« und steuert damit nacheinander
die Zündung der verschiedenen stroboskopischen Lampen 66. Die Schrittschaltelemente
sind in Form eines Schrittschaltringes angeordnet, und die Schrittschaltung wird
mit jedem Umlauf der Scheibe 35 gesteuert und zeitlich bestimmt durch Schrittschaltsignale,
die von einem Schalter 69 geliefert werden, dessen Kontakt 70 mit einem Nocken 72
auf der Welle 39 der Scheibe zusammenwirkt. Der Nocken 72 schließt den Schalter
69 bei jedem Umlauf der Scheibe 35 einmal, um einen kurzen Impuls von einer Gleichstromquelle
73 einer Torschaltung 74
zuzuführen, die während des Intervalls,
in dem die Signale abgelesen werden sollen, durch Leseimpulse aus den Steuerschaltungen
20 (F i g. 1) offen gehalten wird.
-
Das erste Schrittschaltelement »H« des Schrittschalters 68 (F i g.
4) ist ein Haltekreis, der die Speicherung des vorübergehenden Bezugssignals während
des ersten Arbeitsumlaufs gestattet, so daß nachher der Vergleich für »Gr. fl.«
durchgeführt werden kann. Daher wird nach dem ersten Umlauf durch Schließen des
Schalters 69 ein Schrittschaltimpuls an den Schrittschalter 68 abgegeben. Wenn nach
der Betätigung des Haltekreises das nächste Signal »Gr. ü.« angelegt wird, wird
die erste stroboskopische Lampe 66 gezündet und die erste Spalte des Kennzeichens
43 auf dem Segment 41 belichtet. Das durch die Kennzeichen 43 dargestellte binär
verschlüsselte Zeichen wird durch eine Anzahl Photozellen 75 festgestellt, und zwar
ist jeder Stelle einer Spalte des Kennzeichens 43 eine Photozelle zugeordnet. Außerdem
sind die Photozellen 75 so gegeneinander abgeschirmt, daß sie nur das Licht von
der ihr zugeordneten Stelle der jeweils abgetasteten Spalte des Kennzeichens erhalten.
Zur Vereinfachung der Darstellung ist die Abschirmung nicht gezeigt.
-
Nach Zündung der ersten stroboskopischen Lampe 66 durch das Signal
»Gr. r)".« ist der erste Ausleseumlauf abgeschlossen, und das Schrittschaltsignal
wird erzeugt, um zum nächsten Schrittschaltelement weiterzuschalten, so daß das
nächste Signal »Gr. ü.« die zweite stroboskopische Lampe 66 zündet usw. für jedes
folgende Signal »Gr. Ü.«.
-
Nach Beendigung des fünfzehnten Umlaufs der Scheibe 35 und Zündung
der vierzehnten stroboskopischen Lampe 66 ist die Maximalzahl der Buchstabenstellen
des Wortes ausgelesen worden, und das Signal »Gr. Ü.« geht durch das letzte
Schaltelement hindurch, um einen Rückstellimpuls den Steuerschaltungen 20 (F i g.
1) zuzuführen, damit die Identifizierung eines neuen Wortes beginnen kann. Es kann
die Zeit für die Identifizierung noch dadurch verkürzt werden, daß die veränderliche
Länge eines ausgelesenen Wortes berücksichtigt wird, indem ein auf das letzte Zeichen
des Wortes folgendes Sonderzeichen entsprechende Steuerfunktionen auslöst. Die zeitlich
nacheinander von den Photozellen 75 gelieferten Gruppen von parallelen Signalen
werden durch Verstärker 76 geschickt, um z. B. ein Druckwerk 63 zu betätigen. Dreht
sich die Scheibe 35 mit genügend hoher Geschwindigkeit, können die vierzehn Umläufe,
die zur Identifizierung eines vollständigen Wortes und zur Erzeugung eines entsprechenden
Ausgangssignals benutzt werden, in wesentlich kürzerer Zeit ablaufen, als für die
Aussprache eines einsilbigen Wortes nötig ist.
-
Wie die drei Frequenzsignale und drei Amplitudensignale durch die
Informationsverarbeitungsschaltungen 26 (F i g. 1) unter der Steuerung der Normierungs-Steuerschaltungen
erzeugt werden, wird an Hand von F i g. 5 erläutert. Die Amplitudensignale werden
erzeugt durch Signale, die durch drei verschiedene Bandpässe 77, 78, 79 und ihnen
zugeordnete Demodulatoren 80, 81, 82 geschickt werden. Jeder der Bandpässe ist so
gewählt, daß er ein anderes Frequenzband im Tonfrequenzbereich durchläßt. Die Amplituden-Normierungsschaltungen
24 liefern ein Durchschnittssignal, das die durchschnittliche Amplitude der
Frequenzkomponenten des gesprochenen Wortes über eine ausgewählte Zeitdauer hinweg
darstellt. Dieses Durchschnittssignal steuert den Verstärkungsgrad eines Verstärkers,
damit das von der Amplituden-Normierungseinheit 24 gelieferte Amplitudensignal
eine bestimmte Durchschnittsamplitude hat. Die Bandpässe 77, 78, 79, die die verschiedenen
Frequenzkomponenten des normierten Amplitudensignals voneinander trennen, sind so
eingestellt, daß sie unter der Steuerung der Tonhöhen-Normierungseinheit 22 auf
verschiedene Frequenzbänder ansprechen. Das durch die Tonhöhen-Normierungseinheit
22 erzeugte Frequenzsteuersignal stellt das Frequenzband, auf das die verschiedenen
Bandpässe 77, 78, 79 ansprechen, entsprechend der Tonlage des gesprochenen Wortes
ein. Zum Beispiel würde durch ein in hoher Tonlage gesprochenes Wort der Durchlaßbereich
der Bandpässe 77, 78, 79 entsprechend frequenzmäßig nach oben verschoben werden.
Die von den Demodulatoren 80, 81, 82 gelieferten Amplitudensignale A1, AZ und A3
werden also sowohl in bezug auf die Tonhöhe als auch auf die Amplitude auf eine
bestimmte Norm gebracht.
-
Die Frequenzsignale F1, F., und F3 werden in drei verschiedenen Kanälen
durch Anlegung an parallelgeschaltete Bandpässe 84, 85 bzw. 86 erzeugt, die die
normierten Amplitudensignale von der Amplituden-Normierungseinheit 24 empfangen.
Der Durchlaßbereich der Bandpässe 84, 85, 86 wird wieder durch die Tonhöhen-Normierungseinheit
22 gesteuert. Zur Erzeugung der Frequenzsignale, die für die Frequenzmodulation
der Signale in den verschiedenen durch die Bandpässe definierten Bändern charakteristisch
sind, werden Impulsgeneratoren 88, 89 und 90 verwendet, die mit den Ausgangsklemmen
der verschiedenen Bandpässe 84, 85 bzw. 86 verbunden sind. Die Generatoren 88, 89
und 90 können monostabile Kippschaltungen sein, die so vogespannt sind, daß sie
zur Erzeugung eines Impulses von bestimmter Dauer bei jeder Nullüberquerung des
ihnen zugeführten Signals eingeschaltet werden. Diese Impulse werden den Integrierern
92, 93 und 94 zugeführt, die eine in der Amplitude variierende Spannung erzeugen,
die sowohl in bezug auf Tonhöhe und Amplitude des gesprochenen Wortes normiert ist.
Die Integrierer 92, 93 oder 94 arbeiten mit einer relativ kurzen Zeitkonstante und
erzeugen so ein Ausgangssignal, das die Frequenzmodulation in den Frequenzkomponenten
der verschiedenen Bänder darstellt.
-
Die Anzahl der zu verwendenden Amplituden-und Frequenzsignale wird
entsprechend der Anzahl der zu identifizierenden und der Genauigkeit, mit der das
Gerät arbeiten soll, ausgewählt. Daher können sowohl die Kapazität als auch der
Auflösungsgrad des Systems innerhalb weiter Grenzen gewählt werden.
-
Die in der Bezugsmaske benutzten einzelnen Bezugsschemen können entsprechend
den Ausführungsbeispielen gemäß F i g. 6, 7 und 8 hergestellt werden. Mehrere Faktoren
tragen zur sogenannten »übereinstimmungsverzerrung« bei, die die Verzerrung eines
sichtbar gemachten Schemas bezüglich eines Normalschemas unter dem Einfluß verschiedener
Rauschwirkungen darstellt. Diese Rauschwirkungen umfassen Schwankungen im vertikalen
und horizontalen Maßstab, Verschiebung oder falsche Ausrichtung in den horizontalen
und vertikalen Skalen und die uneinheitlich verteilten Abweichungen, die durch
Unterschiede
in Akzent und Aussprache bewirkt werden. Es ist wichtig zu erwähnen, daß eine vorhandene
Verzerrung eine starke Verschlechterung der Qualität der Übereinstimmung hat. Zum
Beispiel bewirkt eine 20%ige Horizontalverschiebung in dem angezeigten Schema nicht
eine 20%ige Abweichung von einer vollkommenen Übereinstimmung, sondern eine solche
von weit über 20%.
-
Daher gehören zu den Erfindungsmerkmalen die Anordnungen der Masken
von F i g. 6, 7 und 8, durch welche die Übereinstimmungsverzerrung auf ein Mindestmaß
reduziert werden kann.
-
F i g. 6 zeigt einen Ausschnitt aus einer Maske 37, die photographisch
hergestellt wurde. Dabei wird eine photographische Platte oder ein Film an einer
gewünschten Stelle von der Lichtquelle, z. B. dem Lichtpunkt einer Kathodenstrahlröhre,
belichtet, und der Verlauf des Signals für ein Normwort wird darauf aufgezeichnet.
Dieser Bezugsverlauf kann dann durch andere. bekannte photographische Verfahren
als transparente Kurve auf dem undurchsichtigen Untergrund der Scheibe 35 übertragen
werden. Die Linie des Bezugsschemas kann seitlich defokussiert werden, so daß seitlich
zu dem Bezugsschema eine abnehmende Schattierung entsteht. Die Defokussierung kann
durch Defokussierung des Elektronenstrahls oder der Optik eines Projektionssystems
bewirkt werden. Sie kann auch erreicht werden durch Defokussierung des Strahls,
der in dem Gerät verwendeten Kathodenstrahlröhre 30 oder des Linsensystems
33 (F i g. 1). Bei richtiger Anwendung dieser Defokussierung wird die Charakterisierung
eines Einzelzeichens selbst dann aufrechterhalten, wenn die so festgelegten Toleranzen
die Annahme normaler Abweichungen in Akzent und Aussprache gestatten. Es hat sich
gezeigt, daß die Verwendung der Defokussierungstechnik die Erkennungsfähigkeit der
Anordnung deutlich verbessert.
-
Nach einem anderen Herstellungsverfahren für die Maske (F i g. 7)
wird eine scharf fokussierte Lichtquelle in dem photographischen Verfahren benutzt.
Das festgelegte Bezugsschema wird erzeugt durch wiederholte Belichtung desselben
Films in derselben Lage mit den durch verschiedene Aussprachen desselben Wortes
dargestellten Signalkurven. Durch diese Überlagerung der Kurven in gleichem Grade
entlang desselben Bereichs der Maske entsteht ein zusammengesetztes Schema, das
das größte Maß an Veränderung in dem Bereich aufweist, in dem Aussprache- und Akzentänderungen
am ausgeprägtesten sind. Die Verwendung einer solchen Maske ist für ein bestimmtes
Zeichen eindeutiger als die Anordnung von F i g. 6.
-
Eine gemäß F i g. 8 aufgebaute Maske verwendet sowohl die aufeinanderfolgenden
Belichtungen gemäß F i g. 7 als auch eine leichte Defokussierung, wie sie in Verbindung
mit F i g. 6 beschrieben ist. Bei dieser Anordnung besteht zum Unterschied zu der
von F i g. 7 eine gewisse seitliche Schattierung bezüglich des Bezugsschemas.
-
Innerhalb des Erfindungsbereichs sind mehrere verschiedene Anordnungen
möglich. Während die Normierungs-Steuerschaltungen die Wirkungsweise des Systems
merklich verbessern, kann diese Funktion aber auch in Übereinstimmung mit Sichtanzeigen
von einer Bedienungsperson erfüllt werden. Ebenso kann die Sichtanzeige ohne ziffernweisen
Abdruck von einer Bedienungsperson beobachtet werden. Da sich die Maske, die die
Bezugsschemen enthält, fortlaufend und mit feststehender Geschwindigkeit dreht,
können viele verschiedene Verfahren verwendet werden, um den Buchstaben anzuzeigen,
der bei Erzeugung eines Signals »Gr. t1.« erkannt wird.
-
Mit Hilfe verschiedener Frequenzbänder und verschiedener Frequenz-
und Amplitudenkurven, die jede das gesprochene Wort kennzeichnen, kann man gemäß
der Erfindung eine noch größere Trennschärfe erreichen. Die Übereinstimmung zwischen
den auf dem Schirm 32 der Kathodenstrahlröhre sichtbar gemachten Kurven und den
ihnen entsprechenden individuellen Bezugsschemen kann durch mehrere Photozellen
100 bis 105 (F i g. 9) festgestellt werden. In F i g. 9 sind die auf dem
Schirm 32 dargestellten Kurven, die Linsensysteme 33, 45 und die Bezugsschemen 38
zur Verdeutlichung vereinfacht dargestellt. Die von jeder der Photozellen 100 bis
105 erzeugten Signale können durch die Verstärkergruppe 108 und dann durch Schaltkreise
109 geschickt werden. Die Schaltkreise 109 sind mit Vergleichsschaltungen
112 gekoppelt, von denen jede dem Vergleicher 50 (F i g. 1) entsprechen
kann. Es werden also während des Betriebs sechs verschiedene Signale »Gr. ü'.« aus
den für jedes Wort (in diesem Beispiel) gebildeten sechs verschiedenen charakteristischen
Signalspuren erzeugt. Die einzelnen Vergleichsschaltungen 112 können mit einem logischen
Schalter 1.14 verbunden sein, der ein einziges Signal »Gr. Ü.« auf der Leitung
115 erzeugt und außerdem so geschaltet ist, daß er die Schaltkreise 109 steuert.
-
Bei dieser Anordnung kann eine bestimmte Anzahl von Signalen »Gr.
Ü.«, die gleichzeitig in verschiedenen Kanälen auftreten, als Anzeige für das ausreichende
Erkennen des Wortes und eine höhere Zahl als Anzeige für das genaue Erkennen des
Wortes dienen. Es können auch noch weitere Informationen bezüglich der Bestimmtheit
der Identifizierung erlangt werden, indem besondere Fühler in jedem Kanal benutzt
werden, um festzustellen, ob das Signal »Gr. i).« eine bestimmte Amplitude übersteigt.
Der logische Schalter 114 könnte die Schaltkreise 109 so steuern,
daß beim Vergleich der Signale nur ausgewählte Kanäle verwendet werden. Auf diese
Weise ist es möglich, zweifelhafte Entscheidungen aufzuheben oder die Unfähigkeit
der Maschine, ein Wort richtig zu identifizieren, festzustellen.