DE1189744B

DE1189744B - Verfahren und Vorrichtung zum Erkennen gesprochener Worte

Info

Publication number: DE1189744B
Application number: DEJ19415A
Authority: DE
Inventors: William Christian Dersch
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1960-02-12
Filing date: 1961-02-11
Publication date: 1965-03-25
Also published as: US3166640A; GB969508A

Description

Verfahren und Vorrichtung zum Erkennen gesprochener Worte Die Erfindung betrifft ein Verfahren zum Erkennen gesprochener Worte, bei denen der gesamte auszuwertende Frequenzbereich in getrennt auszuwertende Teilbereiche aufgeteilt wird.
Es ist bereits bekannt, das durch ein gesprochenes Wort erzeugte tonfrequente Signal in verschiedene Frequenzbänder zu zerlegen und diese zur Identifizierung des Wortes zu benutzen. Diese Verfahren haben jedoch nicht zu praktisch verwertbaren Ergebnissen geführt. Sie waren insbesondere nicht geeignet, eine große Anzahl von Worten mit Sicherheit zu erkennen. Die bekannten Verfahren versagten vor allem dann, wenn das gesprochene Wort in verschiedenen Tonlagen gesprochen wurde.
Das Verfahren und die Vorrichtung gemäß der Erfindung ist in der Lage, sich an die Tonhöhe der Sprache, die Schnelligkeit des gesprochenen Wortes und an die Lautstärke anzupassen. Erfindungsgemäß werden die gesprochenen Worte einer Tonhöhen-, Wortlängen- und Lautstärkennormierung unterzogen, daraus werden die Frequenz- und Amplitudenmodulationskennwerte abgeleitet und diese mit einer Vielzahl gespeicherter Vergleichskomponenten verglichen und bei Feststellung von Übereinstimmung daraus Steuersignale erzeugt und weitergeleitet.
Vorteilhafterweise werden die von einem gesprochenen Wort abgeleiteten Signalkomponenten auf dem Schirm einer Kathodenstrahlröhre sichtbar gemacht und photoelektrisch mit Normalkomponenten auf einer rotierenden Scheibe verglichen, indem bei einem ersten Umlauf der Scheibe der maximale Betrag der dabei gewonnenen Vergleichsspannungen festgestellt und bei den folgenden Umläufen die Normalkomponenten für die größte übereinstimmung und das diesen zugeordnete Wort ermittelt wird.
Weitere Merkmale der Erfindung sind in den Ansprüchen enthalten. Ein Ausführungsbeispiel der Erfindung ist in der folgenden Beschreibung und den Zeichnungen näher erläutert. Es zeigt F i g. 1 ein Blockschaltbild und eine vereinfachte perspektivische Darstellung eines Gerätes zur automatischen Identifizierung gesprochener Worte, F i g. 2 die Kurvenform der elektrischen Signale, herrührend von einem gesprochenen Wort, F i g. 3 einen Teil einer Bezugsmaske, F i g. 4 ein Blockschaltbild eines Teiles des Gerätes, F i g. 5 ein Blockschaltbild der Identifizierungseinheit, F i g. 6, 7 und 8 verschiedene Ausführungsformen von Bezugsmasken, F i g. 9 ein Blockschaltbild einer anderen Form einer Abtastanordnung gemäß der Erfindung.
Die Schallwellen der gesprochenen Worte werden von einem Mikrophon 10 oder einem anderen Wandler in elektrische Ströme umgewandelt, die den Amplituden- und Frequenzschwankungen der Schallwellen entsprechen. Die Eingangsschaltung enthält einen Magnetbandspeicher 12, dem ein mit dem Mikrophon 10 und einem Sprechkopf 14 gekoppelter Aufnahmeverstärker 13 zugeordnet ist. Ein wahlweise anschaltbarer Wiedergabeverstärker 16 ist mit einem Hörkopf 17 verbunden. Der Abstand zwischen dem Sprechkopf 14 und dem Hörkopf 17 ist abhängig von der Geschwindigkeit des Magnetbandes so gewählt, daß eine bestimmte Zeitverzögerung erreicht wird. Die vom Wiedergabeverstärker 16 gelieferten Signale sind entsprechend der Zeitdauer des längsten zu erwartenden Wortes verzögert.
Dem Hörkopf 17 des Magnetbandspeichers 12 ist außerdem ein Löschkopf 18 nachgeordnet. Die Steuerschaltungen 20 sind mit dem Mikrophon 10, dem Aufnahmeverstärker 13, dem Wiedergabeverstärker 16, dem Löschkopf 18 und dem Magnetbandspeicher 12 gekoppelt, damit wahlweise ein Einwortbetrieb und eine wiederholte Analyse erfolgen kann. Der Magnetbandspeicher 12 kann zur aufeinanderfolgenden Aufzeichnung einer ganzen Nachricht und danach zur Ausgabe von jeweils einem Wort verwendet werden, bis alle Worte identifiziert sind. Die Steuerschaltungen 20 belassen ein aufgezeichnetes Wort nicht länger auf dem Bandspeicher 12, als für den normalen Arbeitszyklus erforderlich ist. Die Hauptaufgabe der Steuerschaltungen 20 besteht darin, verschiedene Einheiten des Gerätes am Ende der Arbeitsschritte zurückzustellen.
Die von der Eingangsschaltung abgegebenen Signale werden Normierungs-Steuerschaltungen 21 zugeführt. Sie umfassen eine Tonhöhen-Normierungseinheit 22, eine Wortlängen-Ermittlungseinheit 23 und eine Amplituden-Normierungseinheit 24. Die Tonhöhen-Normierungseinheit 22 stellt die Abweichungen eines gesprochenen Wortes von einer festgelegten Normaltonhöhe oder -frequenz fest und sendet ein Tonhöhen-Steuersignal zu zugeordneten Informationsverarbeitungsschaltungen 26, in denen das Signal in bezug auf die Tonhöhe normiert wird.
Die Amplituden-Normierungseinheit 24 empfängt gleichzeitig die nicht verzögerten Signale direkt vom Mikrophon 10 und die verzögerten Signale vom Wiedergabeverstärker 16. Die direkt empfangenen Signale dienen zur Erzeugung eines Signals zur Darstellung des Durchschnitts-Zeitintervalls für die zu erwartende Wortlänge. Gleichzeitig liefert die Wortlängen-Ermittlungseinheit 23 ein Wortlängen-Steuersignal, das der tatsächlichen zeitlichen Länge des gesprochenen Wortes proportional ist. Dann wird das verzögerte Signal auf zwei veränderliche, in Reihe geschaltete Verstärker gegeben, von denen der eine die Amplitude gemäß dem ermittelten Durchschnittswert und der andere die Amplitude gemäß der tatsächlichen Wortlänge einstellen. Die Signale mit den normierten Amplituden werden dann den Informadonsverarbeitungsschaltungen 26 zusammen mit den Tonhöhen-Steuersignalen zugeführt. Danach sind die Ausgangssignale aus den Informationsverarbeitungsschaltungen 26 sowohl in bezug auf die Tonhöhe als auf die Amplitude normiert, haben aber dieselbe zeitliche Länge wie das ursprüngliche gesprochene Wort.
Weitere Einzelheiten über die Informationsverarbeitungsschaltungen 26, die hier verwendet werden können, folgen nachstehend in Verbindung mit F i g. 5. Es kann jedoch angenommen werden, daß eine genaue und eindeutige Identifizierung jedes gesprochenen Wortes erreicht werden kann durch drei Signale, die die Frequenzmodulationskomponenten von drei verschiedenen Frequenzen darstellen, und durch .drei weitere Signale, die die Amplitudenmodulationskomponenten bei den drei Frequenzen darstellen. Die Wortlängen bzw. Sprechgeschwindigkeitsnormierung erfolgt durch einen Zeitbasisgenerator 28, der durch die Wortlängen-Steuersignale gesteuert wird. Ein elektronischer Schalter 29 faßt die Signalkomponenten der sechs Kanäle zusammen und leitet die Signale auf einem Kanal der Abtaststeuerschaltung 31 zu.
Es werden alle sechs Signale gleichzeitig auf dem Schirm einer Kathodenstrahlröhre 30 unter der Steuerung des Zeitbasisgenerators 28 und der vom elektronischen Schalter 29 kommenden Signale dargestellt. Die Verwendung der Kathodenstrahlröhre zur Zeichenerkennung ist bereits bekannt und nicht Gegenstand der Erfindung. Der Zeitbasisgenerator 28 steuert die horizontalen Ablenkschaltungen so, daß die Kippfrequenz verändert wird, um eine ausgewählte normierte Länge in horizontaler Richtung ohne Rücksicht auf die Dauer des gesprochenen Wortes zu erhalten. Die Signale aus dem elektronischen Schalter 29 steuern die vertikale Ablenkung des Kathodenstrahls der Röhre 30, und die Abtaststeuerschaltung bewirkt die Darstellung der Signalkomponenten auf verschiedenen Zeilen auf dem Schirm 32 der Röhre 30.
Die Ausdrücke »horizontal« und »vertikal« werden hier lediglich als Hinweis und als Beispiel für die in den Zeichnungen gezeigten Stellungen verwendet. Die Signaldarstellungen auf dem Schien 32 können tatsächlich in jeder gewünschten Lage auftreten.
Die in der Länge normierten Signale, die als Leuchtspuren auf dem Schirm 32 auftreten, werden durch ein Linsensystem 33 auf Bezugsmasken 37 einer drehbaren Scheibe 35 fokussiert. Die Scheibe 35 trägt auf einem inneren Bereich für jedes zu identifizierende Wort eine Bezugsmaske 37, die z. B. sechs Bezugsschemen aufweist, die einem gesprochenen Wort zugeordnet sind. Die Bezugsschemen 38 sind auf der Bezugsmaske 37 als durchsichtige Linien dargestellt, und jede der Linien entspricht in bezug auf Längen- und Amplitudenänderungen einer speziellen Normalfrequenzkurve oder -amplitudenkurve für das ausgewählte Wort. In der Zeichnung sind nur wenige Segmente mit Bezugsmasken 37 dargestellt; natürlich können tatsächlich viel mehr davon benutzt werden, um die Anzahl der Bezugsschemen und -worte zu vergrößern. Selbstverständlich können auch andere Verfahren zur Abtastung von Bezugsschemen, die sich an einem Schirm vorbeibewegen, benutzt werden. Es könnte z. B. ein von Kettenrädern angetriebener endloser Film, der mit extrem hoher Geschwindigkeit umläuft, verwendet werden, um eine große Wortkapazität zu erreichen.
Die Scheibe 35, die die Bezugsmaske 37 trägt, ist auf einer Welle 39 befestigt und wird durch einen Motor (nicht dargestellt) angetrieben. Auf dem äußeren in eine größere Anzahl Segmente 40 aufgeteilten Kreisring der Scheibe 35 ist in jedem Segment das zugehörige Wort in Druckschrift transparent dargestellt (F i g. 3). Die identifizierten Worte werden durch stroboskopische Belichtung sichtbar gemacht.
Ein mittlerer Kreisring der Scheibe ist in Segmente 41 eingeteilt und enthält durchsichtige Kennzeichen 43, die in binär verschlüsselter Darstellung die Buchstaben des dem betreffenden Segment zugeordneten Wortes wiedergeben. Durch Verschieben der Segmente 40 und 41 um die Scheibe herum in bezug auf die entsprechenden, dasselbe Wort darstellenden Bezugsschemen 38 läßt sich der Lesebereich in jede beliebige Winkelstellung zu der durch die Speicherröhre 30 und die Photozelle 46 bestimmten optischen Achse bringen. Gemäß F i g. 1 können die Segmente 40 und 41 z. B. um einen Winkel von weniger als 180° zur Bezugsmaske 37 für dasselbe Wort verschoben werden, die sich gerade im Lesebereich befindet.
Durch die Linsen 33 wird das Schirmbild 32 auf der Bezugsmaske 37 (F i g. 1) abgebildet, und durch ein anderes Linsensystem 45 wird das durch die Bezugsschemen 38 hindurchtretende Licht auf eine Photozelle 46 fokussiert. Amplitudenänderungen in den von der Photozelle 46 gelieferten Signalen werden einem Verstärker 47 und dann einem Vergleicher 50 zugeführt, der bestimmt, welche der Bezugsschemen 38 die größte übereinstimmung mit den auf dem Schirmbild 32 angezeigten Schemen aufweisen. Die Vergleicherschaltung 50 enthält zwei Speicherkondensatoren 51 und 52, und zwar speichert der erste Kondensator 51 Wortamplituden während des ganzen bei der Analyse eines gesprochenen Wortes benutzten Zeitabschnitts, und der zweite Kondensator 52 speichert die Maximalamplitude, die während jeder der verschiedenen Abtastungen des Schirmbildes durch die einzelnen Bezugsschemen 38 erzeugt wird. Das Signal in dem zweiten Speicherkondensator 52 kann daher als Einschwingsignal bezeichnet werden. Es stellt die Spannungen dar, die während eines einzigen Umlaufs auftreten und die mit dem Potential auf dem ersten Speicherkondensator 51 verglichen werden soll. Die Signale aus dem Verstärker 47 werden über Dioden 54, 55 den Kondensatoren 51 bzw. 52 und außerdem einem Vergleicher 57 zur Feststellung der Amplitudengleichheit zugeführt. Ein dem ersten Speicherkondensator 51 parallelgeschalteter Kontakt 58 eines Wortrückstellrelais (nicht dargestellt) wird durch Rückstellsignale aus den Steuerschaltungen 20 gesteuert, und zwar entstehen die Rückstellsignale bei Beendigung der Ausgabe. Der Kontakt 59 für die Schemarückstellung ist dem zweiten Speicherkondensator 52 parallel geschaltet und wird periodisch synchron mit der Drehung der Scheibe 35 betätigt. Der zweite Kondensator 52 wird durch die Signale aufgeladen, die entstehen, wenn die Bezugsschemen 38 mit der Darstellung des Schirms 32 verglichen werden. Wenn die Scheibe 35 eine ganze Drehung ausgeführt hat, wird der Kontakt 59 geschlossen, um den Kondensator 52 zu entladen. Die mechanische Kopplung zwischen Kontakt 59 und der Scheibe 35 kann auch durch elektrische Steuerung ersetzt werden.
Der Vergleicher 57 liefert bei dem ersten Umlauf der Scheibe 35 einen Impuls bei der größten Übereinstimmung der Bezugsschemen 38 auf den Bezugsmasken 37 mit dem Schirmbild für das gesprochene Wort. Dieses die größte Übereinstimmung darstellende Signal wird als Impuls zur Betätigung eines Stroboskops 60 zur Belichtung der Wortangaben und der durchsichtigen Kennzeichen 43 benutzt. Das hindurchtretende Licht steuert eine Photozellenmatrix 61, die Ausgangssignale an ein Datenverarbeitungssystem oder eine andere Auswertvorrichtung, z. B. an ein Druckwerk 63, abgibt. Die Aufgaben einer Ausgabeschaltung 62 werden später in Verbindung mit F i g. 4 erläutert.
Jedes vom Mikrophon 10 aufgenommene Wort wird in der Eingangsschaltung so verarbeitet, daß Signale sowohl direkt als auch mit einer Verzögerung in die Normierungs-Steuerschaltungen 21 eingespeist werden. Bei einer genügend hohen Verarbeitungsgeschwindigkeit in der nachfolgenden elektronischen Schaltung kann die Identifizierung eines Wortes in dem kurzen Intervall zwischen den Worten erfolgen, so daß der Betrieb praktisch kontinuierlich ist. Wenn die Geschwindigkeit des Systems hoch genug ist oder eine ausreichende Verzögerung zwischen den Worten vorgesehen ist, können die gesprochenen Worte unter Weglassung des Magnetbandspeichers 12 direkt durch das Mikrophon und einen Verstärker eingegeben werden.
Durch die Normierungs-Steuerschaltungen 21 und die Informationsverarbeitungsschaltungen 26 wird die Identität der durch das gesprochene Wort erzeugten Signale aufrechterhalten und die gewonnenen Signale so normiert, daß das Rauschen weitgehend ausgeschaltet wird. Durch die direkt vom Mikrophon gelieferten Signale wird eine Tonhöheneinstellang in der Tonhöhen-Normierungseinheit 22 und eine Durchschnittsamplitudeneinstellung in der Amplituden-Normierungseinheit 24 vorgenommen. Außerdem wird dasselbe Signal in bezug auf seine Länge in der Wortlängen-Ermittlungseinheit 23 gemessen, um das Wortlängen-Steuersignal zu erzeugen. Dann wird das vom Mikrophon gelieferte und verzögerte Signal des gesprochenen Wortes, das der Amplituden-Normierungseinheit 24 zugeleitet wird, amplitudenmäßig normiert durch die Verwendung sowohl des Durchschnittsamplituden- als auch des Wortlängen-Steuersignals.
In den Informationsverarbeitungsschaltungen 26 werden durch die von der Tonhöhen-Normierungseinheit 22 gelieferten Tonhöhen-Steuersignale entsprechend der tatsächlichen Tonhöhe des gesprochenen Wortes die Durchlaßbereiche von sechs verschiedenen veränderlichen Filtern so eingestellt, daß sie für das zu identifizierende Wort sechs charakteristische Signalkomponenten erzeugen. Die den sechs Filtern zugeführten Signale mit normierter Amplitude werden auf drei Amplituden-Demodulatorkanäle und drei Frequenz-Demodulatorkanäle aufgeteilt. Dementsprechend liefern die Informationsverarbeitungsschaltungen 26 drei »Amplituden«-Signale, die normierte Amplitudenschwankungen bei drei verschiedenen Frequenzen im Tonfrequenzbereich darstellen, und drei entsprechende »Frequenz«-Signale. Alle sechs Signale am Ausgang der Informationsverarbeitungsschaltungen 26 haben dieselbe Dauer wie das zu identifizierende gesprochene Wort.
Die durch die Amplituden- und Frequenzkurven dargestellten sechs zeitlich veränderlichen Signalkomponenten werden gleichzeitig durch einen mit hoher Geschwindigkeit arbeitenden elektronischen Schalter 29 auf einer Kathodenstrahlröhre 30 sichtbar gemacht. Weil die dargestellten Signalkomponenten im Tonfrequenzbereich liegen und der elektronische Schalter im Megahertzbereich arbeitet, gehen keine Informationen verloren.
Die auf dem Schirm der Kathodenstrahlröhre 30 dargestellten Signalkomponenten werden auf eine bestimmte Länge gebracht. Hat das Wort eine kürzere Dauer als die ausgewählte normierte Dauer, beschleunigt das Wortlängen-Steuersignal den Zeitbasisgenerator 28, um die normierte Länge auf dem Schirm 32 der Röhre 30 anzuzeigen, und entsprechend umgekehrt für die Worte, die länger als die ausgewählte Dauer sind.
Die Signalkomponenten, die ein gesprochenes Wort kennzeichnen und als Leuchtspuren auf dem Schirm 32 dargestellt sind, sind in F i g. 2 genauer gezeigt. Mit Beendigung der Abtastung zeigt die normalerweise dunkle Sichtfläche 32 sechs Leuchtspuren, die drei Fiequenz- und drei Amplituden-Signalkomponenten darstellen. Jede Signalkomponente ist vollständig normiert, so daß die persönlichen Eigenarten eines Sprechers in bezug auf Tonhöhe, Amplitude und Sprechgeschwindigkeit ausgeglichen sind.
Gemäß F i g.1 wird das Gesamtbild der Leuchtspuren auf die Bezugsmaske 37 der sich drehenden Scheibe 35 projiziert. Das Licht, das auf die Photozelle 46 fällt und damit das Ausgangssignal des Verstärkers 47, ändert sich für jedes Segment mit dem Grad der Übereinstimmung des Schirmbildes mit den Bezugsschemen 38. Für die Identifizierung eines Wortes werden wiederholte Umläufe der Scheibe 35 benutzt. In einem ersten Umlauf wird das von der Photozelle 46 gelieferte Signal mit der Maximalamplitude festgestellt und gespeichert. In den darauffolgenden Umläufen wird diese Maximalamplitude als Bezugswert verwendet. Die Signale, die an der Photozelle 46 für jedes Bezugsschema 38, das den optisch mit der Leuchtanzeige fluchtenden Sichtbereich überquert, erzeugt werden, werden nacheinander mit der Maximalamplitude verglichen. Wenn das eine Schema 38, das die Erzeugung eines entsprechenden Amplitudensignals ermöglicht, das Sichtfeld überquert, wird ein Signal »Größte Übereinstimmung« (Gr. ü.) erzeugt.
Der Kontakt 59 des Schemarückstellrelais wird bei jedem Umlauf der Scheibe 35 einmal kurz geschlossen, damit Signale aus dem Verstärker 47 den zweiten Speicherkondensator 52 aufladen. Wenn das Schirmbild 32 genau den durchsichtigen Bereichen eines Bezugsschemas 38 entspricht, lädt die Photozelle 46 über den Verstärker 47 den zweiten Speicherkondensator 52 auf eine Maximalspannung auf. Dieser Maximalwert wird für die Identifizierung des unbekannten Wortes benutzt. Es gibt selten eine genaue Übereinstimmung zwischen Anzeige und Bezugsschema wegen der vielen entstehenden restlichen Rauschwirkungen. In den meisten Fällen kann diese Kennzeichnung als eindeutig betrachtet werden. Das Vorhandensein mehrerer verschiedener Signalkomponenten kennzeichnet jedoch das gesprochene Wort völlig und ermöglicht die Identifizierung trotz der restlichen Rauschwirkungen.
Beim ersten vollständigen Umlauf der Scheibe 35 wird die von der Photozelle 46 abgegebene Signalamplitude für die größte Übereinstimmung festgestellt, um eine Norm für den Vergleich der größten Übereinstimmung bei den folgenden Umläufen zu haben. Während des ersten Umlaufs wird der Kontakt 58 des Wortrückstellrelais offen gehalten, und das sich verändernde Signal aus der Photozelle 46 und der Verstärkerschaltung 47 wird über die Diode 54 dem ersten Speicherkondensator 51 zugeleitet. Der Kondensator 51 wird auf einen Spannungspegel aufgeladen, der bestimmt wird durch das Licht, das auf die Zelle 46 fällt, wenn die Anzeige durch die Bezugsschemen 38 mit der größten Übereinstimmung abgetastet wird. Die Signalspitzen werden dadurch gespeichert, daß der Kondensator 51 durch eine Quelle niedriger Impedanz aufgeladen wird und eine Diode 54 mit hohem Sperrwiderstand verwendet wird. Dadurch wird der Kondensator 51 nur von solchen Signalen aufgeladen, deren Amplitude größer ist als die vorher aufgetretenen, bis eine maximale Spannung als Bezugspegel gespeichert ist.
Die hier benutzte Wortprüfung nutzt daher den Spannungspegel am ersten Speicherkondensator 51, der während des ersten Umlaufs entsteht, als Bezugspegel für das zu identifizierende Wort aus. Während des zweiten und jedes folgenden Umlaufs der Scheibe 35 wird dieser Bezugspegel mit den Einschwingpegeln verglichen, die jeweils bei Abtastung des Schirmbildes durch jedes Bezugsschema 38 entstehen. Beim zweiten und den späteren Umläufen der Scheibe 35 wird das Potential am zweiten Kondensator 52 durch die von der Photozelle 46 gelieferte Spannung angehoben, und anschließend wird der Kondensator 52 entladen, um einen neuen Umlauf einzuleiten. Der Kondensator 52 erreicht dasselbe Potential wie der Kondensator 51 nur für eine bestimmte Bezugsmaske, die dem zu identifizierenden, gesprochenen Wort zugeordnet ist. Wenn die Pegel auf beiden Kondensatoren 52 und 51 gleich sind, erzeugt der Vergleicher 57 das Signal »Gr. ü.«. Für jeden Umlauf wird nur ein Impuls »Gr. f3.« erzeugt. Der zweite Kondensator 52 kann auch für jedes neue Bezugsschema anstatt für jeden neuen Umlauf rückgestellt werden.
Das Signal »Gr. r1.«, das der Vergleicher 57 liefert, steuert die Lampe im Stroboskop 60. Nach dem ersten Umlauf der Scheibe 35 leuchtet die Lampe jedesmal beim Auftreten des Signals »Gr. ü.« auf, so daß das erkannte Wort optisch dargestellt wird. Gleichzeitig lassen die durchsichtigen binären Kennzeichen 43 Licht auf eine Photozellenmatrix 61 fallen, die eine parallele Entnahme des identifizierten binär verschlüsselten Wortes ermöglicht. Im vorliegenden Falle werden mehrere Umdrehungen der Scheibe 35 benutzt, um bei jedem Umlauf jeweils einen binär verschlüsselten Buchstaben herauszulesen.
Die Ausleseschaltung 62 steuert, wie aus F i g. 4 deutlicher hervorgeht, das aufeinanderfolgende Auslesen der binär verschlüsselten Zeichen, bis das ganze Wort entnommen ist. Die aus der Ausleseschaltung 62 kommenden binär verschlüsselten Zeichen werden z. B. einem Ausgabedruckwerk 63 zugeführt. Am Ende des Umlaufs für den letzten Buchstaben eines Wortes, welches der maximalen Wortlänge in der Sammlung entspricht, wird ein Rückstellsignal an die Steuerschaltungen 20 zur Betätigung des Kontaktes 58 des Wortrückstellrelais gegeben, um den ersten Speicherkondensator 51 zu entladen. Gleichzeitig betätigt das Rückstellsignal die Steuerschaltungen 20 so, daß ein neues Wort zur Identifizierung bereitgestellt wird. Damit ist der vollständige Arbeitsumlauf und die Identifizierung des jeweiligen gesprochenen Wortes abgeschlossen.
Eine der Erfindung entsprechende Ausleseschaltung 62 ist genauer in F i g. 4 dargestellt, in der ein Teil der Scheibe 35 mit einem durchsichtigen Kennzeichen 43 und einer Bezugsmaske 37 gezeigt ist. Das Kennzeichen 43 ist in der Lage dargestellt, in der gerade ein Signal »Gr. f?.« erzeugt wird. Jede Spalte des Kennzeichens 43 stellt einen Buchstaben in dem erkannten Wort dar. In dieser Auslesestellung des Kennzeichens 43 ist jede Spalte mit einer der stroboskopischen Lampen 66 ausgerichtet. In der Zeichnung sind vierzehn Spalten und vierzehn Lampen 66 dargestellt, und es wird angenommen, daß das längste in Betracht kommende Wort aus vierzehn Buchstaben besteht.
Ein elektronischer Schrittschalter 68 mit fünfzehn in Reihe geschalteten Schrittschaltelementen empfängt das Signal »Gr. rI.« und steuert damit nacheinander die Zündung der verschiedenen stroboskopischen Lampen 66. Die Schrittschaltelemente sind in Form eines Schrittschaltringes angeordnet, und die Schrittschaltung wird mit jedem Umlauf der Scheibe 35 gesteuert und zeitlich bestimmt durch Schrittschaltsignale, die von einem Schalter 69 geliefert werden, dessen Kontakt 70 mit einem Nocken 72 auf der Welle 39 der Scheibe zusammenwirkt. Der Nocken 72 schließt den Schalter 69 bei jedem Umlauf der Scheibe 35 einmal, um einen kurzen Impuls von einer Gleichstromquelle 73 einer Torschaltung 74 zuzuführen, die während des Intervalls, in dem die Signale abgelesen werden sollen, durch Leseimpulse aus den Steuerschaltungen 20 (F i g. 1) offen gehalten wird.
Das erste Schrittschaltelement »H« des Schrittschalters 68 (F i g. 4) ist ein Haltekreis, der die Speicherung des vorübergehenden Bezugssignals während des ersten Arbeitsumlaufs gestattet, so daß nachher der Vergleich für »Gr. fl.« durchgeführt werden kann. Daher wird nach dem ersten Umlauf durch Schließen des Schalters 69 ein Schrittschaltimpuls an den Schrittschalter 68 abgegeben. Wenn nach der Betätigung des Haltekreises das nächste Signal »Gr. ü.« angelegt wird, wird die erste stroboskopische Lampe 66 gezündet und die erste Spalte des Kennzeichens 43 auf dem Segment 41 belichtet. Das durch die Kennzeichen 43 dargestellte binär verschlüsselte Zeichen wird durch eine Anzahl Photozellen 75 festgestellt, und zwar ist jeder Stelle einer Spalte des Kennzeichens 43 eine Photozelle zugeordnet. Außerdem sind die Photozellen 75 so gegeneinander abgeschirmt, daß sie nur das Licht von der ihr zugeordneten Stelle der jeweils abgetasteten Spalte des Kennzeichens erhalten. Zur Vereinfachung der Darstellung ist die Abschirmung nicht gezeigt.
Nach Zündung der ersten stroboskopischen Lampe 66 durch das Signal »Gr. r)".« ist der erste Ausleseumlauf abgeschlossen, und das Schrittschaltsignal wird erzeugt, um zum nächsten Schrittschaltelement weiterzuschalten, so daß das nächste Signal »Gr. ü.« die zweite stroboskopische Lampe 66 zündet usw. für jedes folgende Signal »Gr. Ü.«.
Nach Beendigung des fünfzehnten Umlaufs der Scheibe 35 und Zündung der vierzehnten stroboskopischen Lampe 66 ist die Maximalzahl der Buchstabenstellen des Wortes ausgelesen worden, und das Signal »Gr. Ü.« geht durch das letzte Schaltelement hindurch, um einen Rückstellimpuls den Steuerschaltungen 20 (F i g. 1) zuzuführen, damit die Identifizierung eines neuen Wortes beginnen kann. Es kann die Zeit für die Identifizierung noch dadurch verkürzt werden, daß die veränderliche Länge eines ausgelesenen Wortes berücksichtigt wird, indem ein auf das letzte Zeichen des Wortes folgendes Sonderzeichen entsprechende Steuerfunktionen auslöst. Die zeitlich nacheinander von den Photozellen 75 gelieferten Gruppen von parallelen Signalen werden durch Verstärker 76 geschickt, um z. B. ein Druckwerk 63 zu betätigen. Dreht sich die Scheibe 35 mit genügend hoher Geschwindigkeit, können die vierzehn Umläufe, die zur Identifizierung eines vollständigen Wortes und zur Erzeugung eines entsprechenden Ausgangssignals benutzt werden, in wesentlich kürzerer Zeit ablaufen, als für die Aussprache eines einsilbigen Wortes nötig ist.
Wie die drei Frequenzsignale und drei Amplitudensignale durch die Informationsverarbeitungsschaltungen 26 (F i g. 1) unter der Steuerung der Normierungs-Steuerschaltungen erzeugt werden, wird an Hand von F i g. 5 erläutert. Die Amplitudensignale werden erzeugt durch Signale, die durch drei verschiedene Bandpässe 77, 78, 79 und ihnen zugeordnete Demodulatoren 80, 81, 82 geschickt werden. Jeder der Bandpässe ist so gewählt, daß er ein anderes Frequenzband im Tonfrequenzbereich durchläßt. Die Amplituden-Normierungsschaltungen 24 liefern ein Durchschnittssignal, das die durchschnittliche Amplitude der Frequenzkomponenten des gesprochenen Wortes über eine ausgewählte Zeitdauer hinweg darstellt. Dieses Durchschnittssignal steuert den Verstärkungsgrad eines Verstärkers, damit das von der Amplituden-Normierungseinheit 24 gelieferte Amplitudensignal eine bestimmte Durchschnittsamplitude hat. Die Bandpässe 77, 78, 79, die die verschiedenen Frequenzkomponenten des normierten Amplitudensignals voneinander trennen, sind so eingestellt, daß sie unter der Steuerung der Tonhöhen-Normierungseinheit 22 auf verschiedene Frequenzbänder ansprechen. Das durch die Tonhöhen-Normierungseinheit 22 erzeugte Frequenzsteuersignal stellt das Frequenzband, auf das die verschiedenen Bandpässe 77, 78, 79 ansprechen, entsprechend der Tonlage des gesprochenen Wortes ein. Zum Beispiel würde durch ein in hoher Tonlage gesprochenes Wort der Durchlaßbereich der Bandpässe 77, 78, 79 entsprechend frequenzmäßig nach oben verschoben werden. Die von den Demodulatoren 80, 81, 82 gelieferten Amplitudensignale A1, AZ und A3 werden also sowohl in bezug auf die Tonhöhe als auch auf die Amplitude auf eine bestimmte Norm gebracht.
Die Frequenzsignale F1, F., und F3 werden in drei verschiedenen Kanälen durch Anlegung an parallelgeschaltete Bandpässe 84, 85 bzw. 86 erzeugt, die die normierten Amplitudensignale von der Amplituden-Normierungseinheit 24 empfangen. Der Durchlaßbereich der Bandpässe 84, 85, 86 wird wieder durch die Tonhöhen-Normierungseinheit 22 gesteuert. Zur Erzeugung der Frequenzsignale, die für die Frequenzmodulation der Signale in den verschiedenen durch die Bandpässe definierten Bändern charakteristisch sind, werden Impulsgeneratoren 88, 89 und 90 verwendet, die mit den Ausgangsklemmen der verschiedenen Bandpässe 84, 85 bzw. 86 verbunden sind. Die Generatoren 88, 89 und 90 können monostabile Kippschaltungen sein, die so vogespannt sind, daß sie zur Erzeugung eines Impulses von bestimmter Dauer bei jeder Nullüberquerung des ihnen zugeführten Signals eingeschaltet werden. Diese Impulse werden den Integrierern 92, 93 und 94 zugeführt, die eine in der Amplitude variierende Spannung erzeugen, die sowohl in bezug auf Tonhöhe und Amplitude des gesprochenen Wortes normiert ist. Die Integrierer 92, 93 oder 94 arbeiten mit einer relativ kurzen Zeitkonstante und erzeugen so ein Ausgangssignal, das die Frequenzmodulation in den Frequenzkomponenten der verschiedenen Bänder darstellt.
Die Anzahl der zu verwendenden Amplituden-und Frequenzsignale wird entsprechend der Anzahl der zu identifizierenden und der Genauigkeit, mit der das Gerät arbeiten soll, ausgewählt. Daher können sowohl die Kapazität als auch der Auflösungsgrad des Systems innerhalb weiter Grenzen gewählt werden.
Die in der Bezugsmaske benutzten einzelnen Bezugsschemen können entsprechend den Ausführungsbeispielen gemäß F i g. 6, 7 und 8 hergestellt werden. Mehrere Faktoren tragen zur sogenannten »übereinstimmungsverzerrung« bei, die die Verzerrung eines sichtbar gemachten Schemas bezüglich eines Normalschemas unter dem Einfluß verschiedener Rauschwirkungen darstellt. Diese Rauschwirkungen umfassen Schwankungen im vertikalen und horizontalen Maßstab, Verschiebung oder falsche Ausrichtung in den horizontalen und vertikalen Skalen und die uneinheitlich verteilten Abweichungen, die durch Unterschiede in Akzent und Aussprache bewirkt werden. Es ist wichtig zu erwähnen, daß eine vorhandene Verzerrung eine starke Verschlechterung der Qualität der Übereinstimmung hat. Zum Beispiel bewirkt eine 20%ige Horizontalverschiebung in dem angezeigten Schema nicht eine 20%ige Abweichung von einer vollkommenen Übereinstimmung, sondern eine solche von weit über 20%.
Daher gehören zu den Erfindungsmerkmalen die Anordnungen der Masken von F i g. 6, 7 und 8, durch welche die Übereinstimmungsverzerrung auf ein Mindestmaß reduziert werden kann.
F i g. 6 zeigt einen Ausschnitt aus einer Maske 37, die photographisch hergestellt wurde. Dabei wird eine photographische Platte oder ein Film an einer gewünschten Stelle von der Lichtquelle, z. B. dem Lichtpunkt einer Kathodenstrahlröhre, belichtet, und der Verlauf des Signals für ein Normwort wird darauf aufgezeichnet. Dieser Bezugsverlauf kann dann durch andere. bekannte photographische Verfahren als transparente Kurve auf dem undurchsichtigen Untergrund der Scheibe 35 übertragen werden. Die Linie des Bezugsschemas kann seitlich defokussiert werden, so daß seitlich zu dem Bezugsschema eine abnehmende Schattierung entsteht. Die Defokussierung kann durch Defokussierung des Elektronenstrahls oder der Optik eines Projektionssystems bewirkt werden. Sie kann auch erreicht werden durch Defokussierung des Strahls, der in dem Gerät verwendeten Kathodenstrahlröhre 30 oder des Linsensystems 33 (F i g. 1). Bei richtiger Anwendung dieser Defokussierung wird die Charakterisierung eines Einzelzeichens selbst dann aufrechterhalten, wenn die so festgelegten Toleranzen die Annahme normaler Abweichungen in Akzent und Aussprache gestatten. Es hat sich gezeigt, daß die Verwendung der Defokussierungstechnik die Erkennungsfähigkeit der Anordnung deutlich verbessert.
Nach einem anderen Herstellungsverfahren für die Maske (F i g. 7) wird eine scharf fokussierte Lichtquelle in dem photographischen Verfahren benutzt. Das festgelegte Bezugsschema wird erzeugt durch wiederholte Belichtung desselben Films in derselben Lage mit den durch verschiedene Aussprachen desselben Wortes dargestellten Signalkurven. Durch diese Überlagerung der Kurven in gleichem Grade entlang desselben Bereichs der Maske entsteht ein zusammengesetztes Schema, das das größte Maß an Veränderung in dem Bereich aufweist, in dem Aussprache- und Akzentänderungen am ausgeprägtesten sind. Die Verwendung einer solchen Maske ist für ein bestimmtes Zeichen eindeutiger als die Anordnung von F i g. 6.
Eine gemäß F i g. 8 aufgebaute Maske verwendet sowohl die aufeinanderfolgenden Belichtungen gemäß F i g. 7 als auch eine leichte Defokussierung, wie sie in Verbindung mit F i g. 6 beschrieben ist. Bei dieser Anordnung besteht zum Unterschied zu der von F i g. 7 eine gewisse seitliche Schattierung bezüglich des Bezugsschemas.
Innerhalb des Erfindungsbereichs sind mehrere verschiedene Anordnungen möglich. Während die Normierungs-Steuerschaltungen die Wirkungsweise des Systems merklich verbessern, kann diese Funktion aber auch in Übereinstimmung mit Sichtanzeigen von einer Bedienungsperson erfüllt werden. Ebenso kann die Sichtanzeige ohne ziffernweisen Abdruck von einer Bedienungsperson beobachtet werden. Da sich die Maske, die die Bezugsschemen enthält, fortlaufend und mit feststehender Geschwindigkeit dreht, können viele verschiedene Verfahren verwendet werden, um den Buchstaben anzuzeigen, der bei Erzeugung eines Signals »Gr. t1.« erkannt wird.
Mit Hilfe verschiedener Frequenzbänder und verschiedener Frequenz- und Amplitudenkurven, die jede das gesprochene Wort kennzeichnen, kann man gemäß der Erfindung eine noch größere Trennschärfe erreichen. Die Übereinstimmung zwischen den auf dem Schirm 32 der Kathodenstrahlröhre sichtbar gemachten Kurven und den ihnen entsprechenden individuellen Bezugsschemen kann durch mehrere Photozellen 100 bis 105 (F i g. 9) festgestellt werden. In F i g. 9 sind die auf dem Schirm 32 dargestellten Kurven, die Linsensysteme 33, 45 und die Bezugsschemen 38 zur Verdeutlichung vereinfacht dargestellt. Die von jeder der Photozellen 100 bis 105 erzeugten Signale können durch die Verstärkergruppe 108 und dann durch Schaltkreise 109 geschickt werden. Die Schaltkreise 109 sind mit Vergleichsschaltungen 112 gekoppelt, von denen jede dem Vergleicher 50 (F i g. 1) entsprechen kann. Es werden also während des Betriebs sechs verschiedene Signale »Gr. ü'.« aus den für jedes Wort (in diesem Beispiel) gebildeten sechs verschiedenen charakteristischen Signalspuren erzeugt. Die einzelnen Vergleichsschaltungen 112 können mit einem logischen Schalter 1.14 verbunden sein, der ein einziges Signal »Gr. Ü.« auf der Leitung 115 erzeugt und außerdem so geschaltet ist, daß er die Schaltkreise 109 steuert.
Bei dieser Anordnung kann eine bestimmte Anzahl von Signalen »Gr. Ü.«, die gleichzeitig in verschiedenen Kanälen auftreten, als Anzeige für das ausreichende Erkennen des Wortes und eine höhere Zahl als Anzeige für das genaue Erkennen des Wortes dienen. Es können auch noch weitere Informationen bezüglich der Bestimmtheit der Identifizierung erlangt werden, indem besondere Fühler in jedem Kanal benutzt werden, um festzustellen, ob das Signal »Gr. i).« eine bestimmte Amplitude übersteigt. Der logische Schalter 114 könnte die Schaltkreise 109 so steuern, daß beim Vergleich der Signale nur ausgewählte Kanäle verwendet werden. Auf diese Weise ist es möglich, zweifelhafte Entscheidungen aufzuheben oder die Unfähigkeit der Maschine, ein Wort richtig zu identifizieren, festzustellen.

Claims

Patentansprüche: 1. Verfahren zum Erkennen gesprochener Worte, bei dem der gesamte auszuwertende Frequenzbereich in getrennt auszuwertende Teilbereiche zerlegt wird, d a d u r c h g e k e n n -z e i c h n e t, daß die gesprochenen Worte einer Tonhöhen- (22), Wortlängen- (23) und Lautstärkennormierung (24) unterzogen werden, daraus die Frequenz- und Amplitudenmodulationskennwerte abgeleitet und diese mit einer Vielzahl gespeicherter Vergleichskomponenten verglichen werden und bei Feststellung von Übereinstimmung Steuersignale erzeugt und weitergeleitet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die von einem gesprochenen Wort abgeleiteten Signalkomponenten auf dem Schirm (32) einer Kathodenstrahlröhre (30) sichtbar gemacht und photoelektrisch mit Normalkomponenten auf einer rotierenden Scheibe (35) verglichen werden, in dem bei einem ersten Umlauf der maximale Betrag der dabei gewonnenen Vergleichsspannungen festgestellt und bei dem folgenden Umlauf bzw. Umläufen in bezug auf die maximale Vergleichsspannung die Normalkomponenten für die größte übereinstimmung und damit das diesen zugeordnete Wort ermittelt werden.
3. Vorrichtung zur Durchführung des Verfahrens, gekennzeichnet durch eine Kathodenstrahlröhre (30), auf deren Schirm (32) die Signalkomponenten gleichzeitig dargestellt sind, eine rotierende Scheibe mit einer Vielzahl konzentrisch angeordneter Bezugsmasken, auf denen die Schirmbilder der Signalkomponenten abgebildet werden, eine Photozelle (46), die die durch die Bezugsmasken fallende Lichtmenge mißt und einen ersten Kondensator (51) bei einem ersten Umlauf der Scheibe (35) auf eine Bezugsspannung auflädt und bei den folgenden Umdrehungen der Scheibe (35) einen zweiten Kondensator (52) auflädt, einen Vergleicher (57), der bei übereinstimmung der Kondensatorladungen ein Stroboskop (60) zur Ausgabe des identifizierten Wortes steuert.
4. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Signalkomponenten auf dem Schirm (32) der Kathodenstrahlröhre (30) mittels eines elektronischen Schalters und einer Abtaststeuerschaltung gleichzeitig auf verschiedenen Zeilen dargestellt sind.
5. Vorrichtung nach den Ansprüchen 3 und 4, dadurch gekennzeichnet, daß die Signalkomponenten auf dem Schirm (32) der Kathodenstrahlröhre (30) unabhängig von der Länge oder Geschwindigkeit des gesprochenen Wortes mittels eines durch ein vom Signal des gesprochenen Wortes abgeleiteten Steuersignal beeinflußten Zeitbasisgenerators (28) mit gleicher Länge dargestellt sind.
6. Vorrichtung nach den Ansprüchen 3 bis 5, dadurch gekennzeichnet, daß die Frequenznormierungseinheit (22) und Amplituden-Normierungseinheit (24) einen Tonhöhen- bzw. Laut stärkendurchschnitt für die Zerlegung des Wortes in seine Signalkomponenten bilden und daß die Amplituden-Normierungseinheit zusätzlich vom Wortlängen-Steuersignal beeinflußt wird.
7. Vorrichtung nach den Ansprüchen 1 bis 6, dadurch gekennzeichnet, daß die den einzelnen Bezugsmasken (37) entsprechenden Wörter auf der Scheibe auf konzentrischen Ringen in entsprechender Folge transparent in Klarschrift und buchstabenweise in kodierter Form durch ein Kennzeichen (43) dargestellt sind. B.
Vorrichtung nach den Ansprüchen 1 bis 7, dadurch gekennzeichnet, daß stroboskopische Lampen (66) im Zusammenwirken mit Photozellen (75) unter Steuerung eines Schrittschalters (68) das Kennzeichen (43) schrittweise auslesen.
9. Verfahren nach den Ansprüchen 1 und 2 sowie nach den Ansprüchen 3 bis 8, dadurch gekennzeichnet, daß die einzelnen Bezugsschemen (38) der Bezugsmaske (37) durch entsprechende zugeordnete Photozellen (100 bis 105) mit den auf dem Schirm (32) der Kathodenstrahlröhre (30) dargestellten Signalkomponenten gesondert verglichen werden. In Betracht gezogene Druckschriften: Umschau, 1959, H. 12, S. 356 ff., Artikel von Helmut K a z m i r c z a k : Automatische Zeichenerkennung; Dr. Werner Meyer-Eppler, Elektrische Klangerzeugung, Ferd. Dümmler's Verlag, Bonn, 1949, Tafel XV.